上 EE 从 基本 原则 、 惯 用 法 、 语 法 、 库 、 设 计 模式 、 内 部 机 制 、 开 发 工具 和 性 能 优化 8 方面 深入 探讨 
= 编写 高 质量 python 代码 的 技巧 、 禁 忌 和 最 佳 实践 


Writing Solid Python Code 


91 Suggestions to Improve Your Python Program 


编 与 局 质量 代码 


改善 Python 程序 的 91 个 建议 





(Effective 系 列 从 书 ) 

编写 高 质量 代码 : 改善 Python 程序 的 91 个 建议 
张 颖 赖 勇 浩 著 

ISBN: 978-7-111-46704-5 


本 书 纸 厂 由 机 械 工 业 出 版 社 于 2014 年 出 版 ， 电 子 版 由 华章 分 社 〈 北 京华 
章 图 文 信息 有 限 公司 ) 全 球 范围 内 制作 与 发 行 。 


版 权 所 有 ， 侵 权 必 究 


客服 热线 : + 86-10-68995265 











客服 信箱 : service@bbbvip.com 
官方 网 址 : www.hzmedia.com.cn 
新 浪 微 博 @ 研 发 书局 

腾讯 微 博 @yanfabook 


建议 1: 理解 Pythonic 概 念 
建 议 2: 编写 Pythonic 代 可 
奸 认 。 久 娃 各 





Nh E 、 久 、 AN 六 人 2 2 
建议 6， 编写 函数 的 4 个 原则 


建议 7， 将 常量 二 外 入 
A 下井 2 号 民 
建议 8: 和 aSSerti 四 之 了 问题 





适 
容 性 ， 尽 可 能 Unicode 


建议 17 

建议 18: 梳 奸 合 理 必 寻 次 来 管理 module 
第 3 章 基础 语 Y 

建议 19:，， 有 节制 地 from...import 语 色 

建议 20: 优 absolute import 来 : 黄 寺 

建议 21: i+=1 不 等 于 ++i 

建议 22: with 自动 关闭 资源 

建议 23; else 子 句 简化 循环 《异常 处 理 ) 


建议 24;， 遵循 异常 点 基 
建议 25， 有 finall 发 生 的 陷 
第 访 ; 症 滥 








建议 28: 衬 答 串 时 尽量 .format7 


鞋 议 30， :一任 的 容器 初始 化 
和 31 。 让 天 上 








建议 36: 党 握 字符 串 的 基 





建议 40， 深 入 掌握 ConfigParser 

建议 41: arse 处 理 命令 行 参 类 
建议 42: pandas 上 于 JCSV 
建议 : 5 而 ] ree 几 








SR 


第 6 童 了 立 | | 


律 座 55, init \ 是 构造 方 ; 


57: 为 什么 需要 56lf 戎 考 
建议 58:， 理解 MRO 与 多 继承 
建议 59: 理解 描述 符 机 制 


建议 60:， 区 别 ”getattr 中 getattribute 


全 过 


建议 61: 为 安全 的 propert 





建议 70: 从 PyPI 安 装 包 
建议 71: ip 和 volk 安 装 、 管 理 


建议 pp 做 paster 人 人 名 
: 疯 |1 fA 





建议 80， 上 项 下 
建议 81: cProfile 定 位 性 能 瓶颈 
建议 82: memo rofiler 和 obigraph 癌 





Preface 前 言 
为 什么 要 与 这 本 书 


当 这 本 书 的 写作 接近 尾声 的 时 候 ， 回 过 头 来 看 看 这 一 年 多 的 写作 历 
程 ， 不 由 得 心 生 感叹 ， 这 是 一 个 痛 并 快乐 着 的 过 程 。 不 必 说 牺牲 了 多 少 
个 周末 ， 也 不 必 计 算 多 少 个 夜晚 伏案 写作 ， 单 是 元 服 写作 过 程 中 因 疲 劳 
而 进发 出 来 的 入 得 、 犹 驳 和 动摇 等 情绪 都 觉得 是 件 不 容易 的 事情 。 但 不 
管 怎么 说 ， 这 最 终 是 个 沉淀 和 收获 的 过 程 ， 写 作 的 同时 我 也 和 读者 们 一 
样 在 进步 。 为 什么 要 写 这 本 书 ? 可 以 说 是 机 缘 巧 合 。 机 械 工 业 出 版 社 的 
杨 福 川 老师 联系 到 我 ， 说 他 们 打算 策划 一 本 关于 高 质量 Python 编程 方面 
的 书籍 ， 问 我 有 没有 兴趣 加 入 。 实 话 实 说 ， 最 开始 我 是 持 否 定 态 度 的 ， 
一 则 因为 业余 时 间 实 在 有 限 ， 无 法 保证 我 “工作 和 生活 要 平衡 ”的 理念 ; 
二 则 觉得 自己 水 平 有 限 ， 在 学 习 Python 的 道路 上 我 和 千 千 万 万 读者 一 
样 ， 只 是 一 个 普通 的 “ 绷 圣 者 ”， 我 也 有 迷惑 不 解 的 时 候 ， 在 没有 修炼 到 
大 彻 大 悟 之 前 拿 什 么 来 给 人 传道 授 业 ? 是 赖 勇 浩 老师 的 加 入 给 我 注入 了 
一 针 强 心 剂 ， 他 丰富 的 Python 项 目 经 验 以 及 长 期 活跃 于 Python 社 区 所 积 
累 下 来 的 名 望 无 形 中 给 了 我 一 份 信心 。 杨 老师 的 鼓励 和 支持 也 更 加 坚定 
了 我 的 态度 ， 经 过 反复 考虑 和 调整 自己 的 心态 ， 最 终 我 决定 和 赖 老师 一 
起 完成 这 本 书 。 因 为 我 也 经 历 过 从 零 开 始 的 Python 学 习 过 程 ， 我 也 遇 到 
过 各 种 困惑 ， 经 历 过 不 同 的 曲折 ， 这 些 可 能 也 正 是 每 一 个 学 习 Python 的 
人 从 最 初 到 进 阶 这 一 过 程 中 都 会 遇 到 的 问题 。 抱 着 分 享 目 己 在 学 习 和 工 
作 中 所 积累 的 一 点 微薄 经 验 的 心态 ， 我 开始 了 本 书 的 写作 之 旅 。 这 个 过 
程 也 被 我 当 作 是 对 自己 学 过 的 知识 的 一 种 梳理 。 如 果 与 此 同时 ， 还 能 够 
给 读者 带 来 一 些 启示 和 思索 ， 那 将 是 这 本 书 所 能 带 给 我 的 最 大 收获 了 。 






































读者 对 象 


:有 一 定 的 Python 基础 ， 和 希望 通过 项 目 最 佳 实践 来 提升 自己 的 相关 
Python 人员。 


. 硕 望 进一步 掌握 Python 相关 内 部 机 制 的 技术 人 员 。 
.希望 写 出 更 高 质量 、 更 Pythonic 代 码 的 编程 人 员 。 
:开设 相关 课程 的 大 专 院 校 师 生 。 





如 何 阅读 本 书 


首先 需要 注意 的 是 ， 本 书 并 不 是 入 门 级 的 语法 介绍 类 的 书籍 ， 因 此 
在 向 读本 书 之 前 假定 你 已 经 党 握 了 最 基础 的 Python 语法 。 如 果 没 有 ， 也 
没有 关系 ， 你 可 以 先 找 一 本 最 简单 的 介绍 Python 语法 的 书籍 看 看 ， 尝 试 
写 几 个 Python 小 程序 之 后 再 来 阅读 本 书 。 


本 书 分 为 8 昔 ， 主 要 从 编程 惯用 法 、 基 础 语法 、 库 、 设 计 模 式 、 内 
部 机 制 、 开 发 工具 、 性 能 齐 析 与 优化 等 方面 解读 如 何 编写 高 质量 的 
Python 程序 。 每 个 章节 的 内 容 都 以 建议 的 形式 呈现 ， 这 些 建议 或 源 于 实 
际 项 目 应 用 经 验 ， 或 源 于 对 Python 本 质 的 理解 和 探讨 ， 或 源 于 社区 推荐 
的 做 法 。 它 们 能 够 帮助 读者 快速 完成 从 入 门 到 进 阶 的 这 个 过 程 。 


由 于 各 个 章节 相对 独立 ， 因 此 无 须 花 费 整 段 的 时 间 从 头 开 始 疝 读 。 
你 可 以 在 空 亲 的 时 候选 取 任意 感 兴趣 的 小 节 阅 读 。 为 了 减轻 读者 负担 ， 
本 书 代码 尽量 保持 完整 ， 阅 读 过 程 中 无 须 额外 下 载 其 他 相关 代码 。 




















勘误 和 文 持 


由 于 作者 的 水 平 有 限 ， 加 之 编写 时 间 人 仓促， 书 中 难免 会 出 现 一 些 错 
误 或 者 不 准确 的 地 方 ， 奶 请 读者 批评 指正 。 如 果 你 在 阅读 过 程 中 遇 到 任 
何 问题 或 者 发 现任 何 错误 ， 欢 迎 发 送 邮件 至 邮箱 
highqualitypython@163.com， 我 们 会 尽量 一 一 解答 直到 你 满意 。 期 竺 能 
够 得 到 你 的 真挚 反馈 。 


致谢 
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刘 以 此 书 献 给 所 有 热爱 Python 的 朋友 们 ! 


张 视 


第 1 章 引 论 


罗马 不 是 一 天 建成 的 ”， 编 写 代 码 水 平 的 提升 也 不 可 能 一 路 而 就 ， 
通过 一 点 一 滴 的 积 囚 ， 才 外 g 达 成 从 量变 到 质变 的 飞跃 。 这 种 积累 可 以 从 
很 多 方面 取得 ， 如 一 些 语 言 层 面 的 使 用 技巧 、 第 见 的 注意 事项 、 编 程 风 
格 等 。 本 章 主要 探讨 Python 中 常见 的 编程 准则 ， 从 而 帮助 读者 进一步 理 
解 Pythonic 的 本 质 。 本 章 内 容 包 括 如 何 编写 Pythonic 代 码 、 在 实际 应 用 中 
看 要 注意 的 一 些 事项 和 值得 提倡 的 一 些 做 法 。 和 希望 读者 通过 对 本 章 的 学 
习 ， 可 以 在 实际 应 用 Pythonic 的 过 程 中 得 到 启发 和 帮助 。 














建议 1: 理解 Pythonic 概 念 

什么 是 Pythonic? 这 是 很 难 定义 的 ， 这 就 是 为 什么 大 家 无 法 通过 搜 
索引 苟 找 到 准确 答案 的 原因 。 但 很 难 定义 的 概念 绝 非 意味 着 其 定义 没有 
价值 ， 尤 其 不 能 否定 它 对 编写 优美 的 Python 代码 的 指导 作用 。 

对 于 Pythonic 的 概念 ， 众 人 各 有 上 自己 的 看 法 ， 但 大 家 心目 之 中 都 认 
同一 个 更 具体 的 指南 ， 那 就 是 Tim Peters 的 《The Zen of Python》 
(Python 之 禅 ) 。 在 这 一 充满 着 禅 意 的 诗篇 中 ， 有 几 点 非常 深入 人 心 : 

美 胜 妖 ， 显 胜 隐 ， 简 胜 杀 ， 末 胜 乱 ， 平 胜 陡 ， 芷 胜 密 。 


-找到 简单 问题 的 一 个 方法 ， 最 好 是 唯一 的 方法 《正确 的 解决 之 





道 ) 
难以 解释 的 实现 ， 源 目 不 好 的 主意 ， 如 有 非常 棒 的 主意 ， 它 的 实 
现 肯定 易于 解释 。 
不 仅 这 几 点 ， 其 实 《Python 之 禅 》 中 的 每 一 句 都 可 作为 编程 的 信 


条 。 是 的 ， 不 仅 是 作为 编写 Python 代码 的 信条 ， 以 它 为 信条 编写 出 的 其 
他 语言 的 代码 也 会 非常 漂 腕 。 


(1) Pythonic 的 定义 
遵循 Pythonic 的 代码 ， 看 起 来 束 像 是 伪 代 码 。 其 实 ， 所 有 的 伪 代 码 


都 可 以 轻易 地 转换 为 可 执行 的 Python 代码 。 比 如 在 Wikipedia 的 快速 排序 
ua 条 目 中 有 如 下 伪 代 码 : 





function quicksort('array') 
if length('array') 


Ee 
< 'pivot' then append 'x' to 'less' 
else append 'x' to 'greater' 
turn concatenate(quicksort('less'), list('pivot'), quicksort('greater')) 
// two recursive calls 








实际 上 ， 它 可 以 转化 为 以 下 同等 行 数 的 可 以 执行 的 Python 代 码 : 


def a sor ay): 
[]; gr Ne = [] 
和 en Be Pay 


etu 
py vot 二 arr ray, .pop() 
区 说 
证 < ot less.append(x) 


else: greater.append(x) 
return quicksort(less)+[pivot]+quicksort(greater) 





看 ， 行 数 一 样 的 Python 代码 甚至 可 读 性 比 伪 代 码 还 要 好 吧 ? 但 它 真 
的 可 以 运行 ， 结 果 如 下 : 





978;4;5;32,64,2;1;0;10,19;27]) 
, 10, 19， 27， 32, 641 


ww 





所 以 ， 综 合 这 个 例子 来 说 ， Pythonic 也 许可 以 定义 为 : 充分 体现 
0 i 接 下 来 就 看 看 这 样 的 代码 风格 在 实际 中 是 
[ 何 体 汇 


(2) 代码 风格 


对 于 风格 ， 光 说 是 没有 用 的 ， 最 好 是 通过 例子 来 看 看 ， 本 
得 见 ， 会 显得 更 真实 。 下 面 以 语法 、 库 和 应 用 程序 为 例 给 大 家 介 


在 语法 上 ， 代 码 风格 要 充分 表现 Python 自身 特色 。 举 个 最 常见 的 例 
子 ， 在 其 他 的 语言 《如 C 语 言 ) 中 ， 两 个 变量 交换 需要 如 下 的 代码 : 




















利用 Python 的 packaging/unpackaging 机 制 ，Pythonic 的 代码 只 需要 以 
下 一 行 : 





-0 





还 有 ， 在 过 历 一 个 容器 的 时 候 ， 类 似 其 他 编程 语言 的 代码 如 下 : 





length = len(alist) 
i= 


while i < length: 
do_sth_with(alist[i]) 
i+= 1 





而 Pythonic 的 代码 如 下 : 





for’1 in.alist: 
do_sth_with(i) 


灵活 地 使 用 迁 代 右 是 一 种 Python 风 格 。 叉 比如 ， 需 要 安全 地 关闭 文 
件 描述 待 ， 可 以 使 用 以 下 with 语句 : 


with open(path, 'r') as f 
do_sth_with(f) 


通过 上 述 代 码 的 对 比 ， 能 让 大 家 清晰 地 认识 到 Pythonic 的 一 个 要 
求 ， 束 是 对 Python 语 法 本 里 的 充分 发 挥 ， 写 出 来 的 代码 带 着 Python 味 
儿 ， 而 不 是 看 着 像 C 语 言 代 伍 ) 或 者 Java 人 代码 o 


应 当 追 求 的 是 充分 利用 Python 语法 ， 但 不 应 当 过 分 地 使 用 奇 技 淫 
巧 ， 比 如 利用 Python 的 Slice 语 法 ， 可 以 写 出 如 下 代码 ; 


a = [1,2,3,4] 
c = 'abcdef ' 


如 果 不 是 同样 退 求 每 一 个 语法 细 市 的 “ 老 鸟 ”， 这 段 代 码 的 作用 多 怕 
不 能 一 眼 就 看 出 来 。 实 际 上 ， 这 个 时 候 更 好 地 体现 Pythonic 的 代码 是 充 
分 利用 Python 库 里 reversed0 函 数 的 代码 。 





Dr rin t list(reversed(a)) 
print list(reversed(c)) 





(3) 标准 库 


写 Pythonic 程 序 需 要 对 标准 库 有 充分 的 理解 ， 特 别 是 内 置 函 数 和 内 
置 数 据 类 型 。 比 如 ， 对 于 字符 串 格 式 化 ， 一 般 这 样 写 : 











print 'Hello %s!' % ('Tom',) 








其 实 %s 是 非常 影响 可 读 性 的 ， 因 为 数量 多 了 以 后 ， 很 难 清楚 哪 一 
个 占 位 符 对 应 哪 一 个 实 参 。 所 以 相对 应 的 Pythonic 代 码 是 这 样 的 : 





print 'Hello %(name)s!' % {'name': 'Tom'} 





这 样 在 参数 比较 多 的 情况 下 尤其 有 用 。 





字符 囊 
Value {'greet': 'Hello world' no age': 'Python'} 
pr nt '%(greet)s from RLS age)s.' % value 











% 占 位 符 来 自 于 大 家 的 先 验 知识 ， 其 实 对 于 新 手 而 言 ， 有 点 “英名 
其 妙 "， 所 以 更 具有 Pythonic 风 格 的 代码 如 下 : 





print '{greet} from {language}.'.format(greet = 'Hello world', language = 'Python') 








str.format() 方 法 非常 清晰 地 表明 了 这 条 语句 的 意图 ， 而 且 模 板 的 使 
用 也 减少 了 许多 不 必要 的 字符 ， 使 可 读 性 得 到 了 很 大 的 提升 。 事 实 上 ， 
了 Python 最 为 推荐 的 字符 串 格 式 化 方法 ， 当 然 也 是 最 
Pythonic 的 。 





(4) Pythonic 的 库 或 框架 


编写 应 用 程序 的 时 候 的 要 求 会 更 高 一 些 。 因 为 编写 应 用 程序 一 般 需 
要 团队 合作 ， 那 么 可 能 你 编写 的 那 一 部 分 正好 是 团队 的 另 一 成 员 需 要 调 
用 的 接口 ， 换 言 之 ， 你 可 能 正在 编写 库 或 框架 。 


程序 员 利 用 Pythonic 的 库 或 框架 能 更 加 容易 、 更 加 自然 地 完成 任 
务 。 如 果 用 Python 编写 的 库 或 框架 迫使 程序 员 编写 蒜 壮 的 或 不 推荐 的 代 
码 ， 那 么 可 以 说 它 并 不 Pythonic。 现 在 业内 通常 认为 Flask 这 个 框架 是 比 
较 Pythonic 的 ， 它 的 一 个 Hello world 级 别 的 用 例如 下 : 














稍 有 编程 经 验 的 人 都 可 以 通过 上 例 认 识 到 利用 Python 编程 极为 容易 
这 一 事实 。 一 个 Pythonic 的 框架 不 会 对 已 经 通过 惯用 法 完成 的 东西 重复 
发 明 “ 轮 子 ”， 而 且 它 也 遵循 沿用 的 Python 惯例 。 创 建 Pythonic 的 框架 极 
其 困难 ， 什 么 理念 更 酷 、 更 符合 语言 习惯 对 此 坚 无 帮助 ， 事 实 上 这 些 年 
来 优秀 的 Python 代码 的 特性 也 在 不 断 演 化 。 比 如 现在 认为 像 generators 之 
类 的 特性 尤为 Pythonic。 


另 一 个 有 关 新 趋势 的 例子 是 : Python 的 包 和 模块 结构 日 益 规范 化 。 
现在 的 库 或 框架 跟随 了 以 下 淹 流 : 


' 包 和 模块 的 命名 采用 小 写 、 单 数 形式 ， 而 且 短 小 。 
` 包 通常 仅 作 为 命名 空间 ， 如 只 包含 空 的 _ init .py 文件 。 








[1 | http://en.wikipedia.org/wiki/Quicksort。 


建议 2: 编写 Pythonic 代 三 


如 何 编写 更 加 Pythonic 的 代码 ， 与 定义 什么 是 Pythonic 一 样 困难 。 在 
这 里 ， 只 能 给 出 一 些 经 验 之 谈 ， 和 希望 对 大 家 有 所 帮助 。 


(1) 要 避免 劣化 代码 


与 优化 代码 对 应 ， 务 化 代码 就 是 一 开始 写 出 来 束 是 不 合理 的 代码 ， 
比如 不 合适 的 变量 命名 等 。 通 第 有 以 下 几 个 值得 注意 的 地 方 : 


1) 避免 只 用 大 小 写 来 区 分 不 同 的 对 象 。 如 a 是 一 个 数值 类 型 变量 ， 
A 是 String 类 型 ， 虽 然 在 编码 过 程 中 很 容易 区 分 二 者 的 含义 ， 但 这 样 做 坚 
无 益处 ， 它 不 会 给 其 他 阅读 代码 的 人 带 来 多 少 便利 。 


2) 避免 使 用 容易 引起 混淆 的 名 称 。 容 易 引 起 混淆 的 名 称 的 使 用 情 
形 包 括 : 重复 使 用 已 经 存在 于 上 下 文中 的 变量 名 来 表示 不 同 的 类 型 ， 误 
用 了 内 建 名 称 来 表示 其 他 含义 的 名 称 而 使 之 在 当前 命名 空间 被 屏蔽 ;， 没 
有 构建 新 的 数据 类 型 的 情况 下 使 用 类 似 于 element、list、dict 等 作为 变量 
名 ; 使 用 0 字母 O 小 写 的 形式 ， 容 易 与 数值 0 混 清 ) 、1 (字母 L 小 写 的 
形式 ， 容 易 与 数值 1 混 消 ) 等 作为 变量 名 。 因 此 推荐 变量 名 与 所 要 解决 
的 问题 域 一 致 。 有 如 下 两 个 示例 ， 示 例 二 比 示 例 一 更 好 。 





























示例 一 : 








3) 不 要 害怕 过 长 的 变量 名 。 为 了 使 程序 更 容易 理解 和 阅读 ， 有 的 
时 候 长 变量 名 是 必要 的 。 不 要 为 了 少 写 几 个 字母 而 过 分 缩写 。 下 例 是 一 
辐 2 来 保存 用 户 信息 的 字典 结构 ， 变 量 名 person_info 比 pi 的 可 读 性 要 强 
得 多 。 








>>> person_info={'name':'Jon','IDCard':'200304', 'address':'Num203,Monday Road '， 
'email':'test@gail.com'} 





(2) 深入 认识 Python 有 助 于 编写 Pythonic 代 但 
可 以 从 以 下 几 个 方面 进行 着 手 : 


全面 掌 握 Python 提 供给 我 们 的 所 有 特性 ， 包 括 语言 特性 和 库 特性 。 
其 中 最 好 的 学 习 方 式 应 该 是 通读 官方 手册 中 的 Language Reference 和 
Library Reference。 和 掌握 了 语言 特性 和 库 特 性 ， 以 后 许多 “惯用 法 ”自然 而 
然 就 掌握 了 ， 写 代码 的 时 候 ， 自 然 会 使 用 常见 的 、 公 认 的 、 简 短 的 惯用 
法 来 实现 预期 效果 ， 也 使 得 代码 显得 尤为 Pythonic。 


. 随 着 Python 的 版 本 更 新 、 时 间 的 推移 ，Python 语 言 不 断 演 进 ， 社 区 
不 断 成 长 ， 还 需要 学 习 每 个 Python 新 版 本 提供 的 新 特性 ， 以 及 掌握 它 的 
变化 趋势 。 从 另 一 角度 来 看 ， 一 方面 Python 语言 推荐 使 用 大 量 的 惯用 法 
来 完成 任务 〈“ 完 成 任务 的 唯一 方法 ”) ; 男 一 方面 ， 社 区 不 断 演变 的 新 
惯用 法 反 过 来 又 影响 了 语言 的 进化 ， 以 更 好 地 支持 惯用 法 。 比 如 早年 的 
Pythonista 常 用 dict.has_key() 方 法 来 判断 字典 对 象 是 否 包 售 某 个 元 素 ， 但 
新 版 本 的 Python 中 提供 了 in 操作 符 〈 文 持 多 种 容器 类 型 ) 取代 它 。 改 变 
习惯 的 阻力 很 大 ， 而 元 服 这 些 阻力 的 唯一 方法 就 是 加 深 对 Python 的 认 
识 ， 因 为 在 语言 支持 正确 的 惯用 法 之 后 ， 非 推荐 的 代码 通常 执行 起 来 更 
慢 。 所 以 说 ， 不 更 新 知识 是 不 行 的 。 

深入 学 习 业 界 公 认 的 比较 Pythonic 的 代码 ， 比 如 Flask、gevent 和 


requests 等 。 以 requests 这 个 通过 HTTP (HTTPS) 协议 获取 网 络 资源 的 程 
序 库 为 例 ， 要 获取 带 有 Basic Auth 的 网 络 资源 时 ， 代 码 如 下 : 

















import requests 
r= requests.get('https://api.github.com', auth=('user', 'pass')) 


print r.status_code 

bran r.headers['content-type'] 
200 

# '" application/json' 








而 使 用 Python 标 准 库 httplib2 时 ， 代 码 束 非常 复杂 ， 程 序 员 需 要 了 解 
相当 多 的 关于 HTTP 协 议和 Basic Auth 的 知识 才能 编程 。 





import urllib2gh_url = 'https://api.github.com' 

req = urllib2.Request(gh_url) 

password_manager = urllib2. pr eassor A potest en 
password_manager .add_password(None, gh_url, 'user' 
auth_manager = urllib2. HTTPBasicAuthHandler (password_ one 
opener = urllib2.build_opener(auth_manager) 
urllib2.install_opener (opener) 

handler = urllib2.urlopen(req) 

print handler.getcode( 

Pront handler .headers.getheader('content-type') 

# 200 

# 'application/json"' 





看 ， 使 用 一 个 Pythonic 的 程序 库 可 以 简化 很 多 工作 量 ! 那么 深入 学 
习 理 解 类 似 requests 的 高 质量 程序 库 带 给 我 们 的 收获 应 该 完全 可 以 预 
期 : 一 定 是 非常 大 的 ! 


最 后 ， 除 了 修炼 内 功 外 ， 也 可 以 尝试 利用 工具 达到 事半功倍 的 效 
果 。 所 以 接 下 来 介绍 风格 检查 程序 PEP8。 其 实 一 开始 PEP8 是 一 篇 关于 
Python 编码 风格 的 指南 ， 它 提出 了 保持 代码 一 致 性 的 细节 要 求 。 它 至 少 
包括 了 对 代码 布局 、 注 释 、 命 名 规范 等 方面 的 要 求 ， 在 代码 中 遵循 这 些 
a 有 利于 编写 Pythonic 的 代码 。 比 如 ， 对 代码 的 换行 ， 不 好 的 风格 
0D 下 : 

















if foo == 'blah': do_blah_thing() 
do_one(); do_two(); do_three() 





而 Pythonic 的 风格 则 是 这 样 的 : 





if foo == 'blah' 
do_blanh :Ehingty 

do_one() 

do_two() 


do_three() 








如 果 要 “人 肉 ” 检 查 代码 是 否 符合 PEP8 规 范 ， 则 比较 困难 ， 而 且 容 易 
跟 同 傣 引 发 争论 。 所 以 Johann C. Rocholl 开 发 了 一 个 应 用 程序 来 进行 检 
就 是 应 用 程序 PEP8。 当 然 ， 它 是 使 用 Python 开 发 的 ， 安 装 它 非 常 容 








$ pip install -U pep8 





在 自己 的 shell 中 执行 这 一 命令 就 可 以 安装 成 功 了 (首先 需要 安装 
pip) 。 然 后 即 可 简单 地 用 它 检测 一 下 自己 的 代码 。 








$ pep8 --first optparse.py 

optparse.py:69:11: E401 multiple imports on one line 
optparse.py:77:1: E302 expected 2 blank lines, found 1 
optparse.py:88:5: E301 expected 1 blank line, found 0 
optparse.py:222:34: W602 deprecated form of raising exception 
optparse.py:347:31: E211 whitespace before '(' 
optparse.py:357:17: E201 whitespace after '{" 
optparse.py:472:29: E221 multiple spaces before operator 
optparse.py:544:21: W601 .has_key() is deprecated, use 'in' 





可 以 看 到 上 面 有 许多 错误 和 人 警告， 然后 我 们 按 图 索 桩 逐一 修复 它们 
束 可 以 了 。 如 果 嫌 这 种 报表 不 够 细致 ， 可 以 考虑 使 用 --show-source 参 数 
让 PEP8 显 示 每 一 个 错误 和 警告 对 应 的 代码 。 





$ pep8 --show-source --show-pep8 testsuite/E40.py 
testsuite/E40.py:2:10: E401 multiple imports on one line 
import os, sys 

人 


Imports should usually be on separate lines. 
Okay: import os\nimport sys 
E401: import sys, os 





看 ， 它 甚至 可 以 给 出 “正确 ”的 写法 ! 除了 针对 茶 一 个 源 代 码 文 件 以 
外 ， 它 还 可 以 直接 检测 一 个 项 目的 质量 ， 并 通过 直观 的 报表 给 出 报告 。 





$ pep8 --statistics -qq Python-2.5/Lib 
2 E201 whitespace after '[ 


599 E202 whitespace before ') 
631 E203 whitespace before ',' 
842 E211 whitespace before '( 


2534 E221 multiple spaces before operator 
4473 E301 expected 1 blank line, found 0 
4006 E302 expected 2 blank lines, found 1 
165 E303 too many blank lines (4) 


325 E401 multiple imports on one line 
3615 E501 line too long (82 characters) 

2 601 .has_key() is deprecated, use 'in' 
1188 W602 deprecated form of raising exception 


PEP8 有 优秀 的 插件 架构 ， 可 以 方便 地 实现 特定 风格 的 检测 〈 例 
如 ， 有 些 公 司 、 团 队 会 定义 自己 的 风格 ) ; 它 生成 的 报告 易于 处 理 ， 可 
以 很 方便 地 与 编辑 器 集成 〈 例 如 ， 实 现 点 击 出 错 信息 跳 转 到 相应 代码 
行 ) 。 所 以 这 是 一 个 非常 有 用 的 工具 ， 它 可 以 提升 你 对 Pythonic 的 认 
识 ， 达 到 编写 高 质量 代码 的 目的 。 


PEP8 不 是 唯一 的 编程 规范 ， 事 实 上 ， 有 些 公 司 制定 的 编程 规范 也 
非常 有 参考 意义 ， 比 如 Google Python Style Guide。 同 样 ，PEP8 也 不 是 
唯一 的 风格 检测 程序 ， 类 似 的 应 用 还 有 Pychecker、Pylint、Pyflakes 等 。 
其 中 ，Pychecker 是 Google Python Style Guide 推 荐 的 工具 ; Pylint 因 可 以 
非常 方便 地 通过 编辑 配置 文件 实现 公司 或 团队 的 风格 检测 而 受到 许多 人 
的 青睐 ;Pyflakes 则 因为 易于 集成 到 vim 中 ， 所 以 使 用 的 人 也 非常 多 。 


其 实 Pythonic 的 代码 ， 往 往 是 放 莽 目 我 风格 的 代码 ， 而 要 有 “ 放 莽 目 
我 风格 ”的 觉悟 ， 是 非常 困难 、 非 常 痛 天 的 。 权 突破 这 种 瓶颈 ， 完 成 目 
我 旷 变 ， 除 了 需要 付出 许多 精力 去 学 习 外 ， 参 考 更 好 的 书籍 进行 辅助 也 
是 相当 有 帮助 的 。 目 前 市 面 上 针对 编写 “高 质量 ”的 Python 程 序 的 方法 的 
书籍 并 不 多 ， 本 书 应 是 一 本 比较 好 的 参考 资料 。 作 为 作者 ， 我 们 也 真心 
希望 自己 的 一 反 扩 经 验 分 享 能 够 对 读者 有 所 帮助 。 














建议 3: 理解 Python 与 C 语 言 的 不 同 之 处 


我 们 都 知道 ，Python 底 层 是 用 C 语 言 实现 的 ， 但 切忌 用 C 语 言 的 思维 
和 风格 来 编写 Python 代 码 。 对 于 那些 在 学 习 Python 之 前 有 其 他 编程 语言 
《如 Java、C# 等 ) 经 验 的 程序 员 来 说 ， 尤 其 重要 的 是 : 不 要 使 用 之 前 的 
ee 


1 ) “ 缩 进 ” 与 “{ > 


与 C、C++、Java 等 语言 使 用 花 括 写 {} 来 分 阳 代 人 码 段 不 同 ，Python 中 
使 用 严格 的 代码 缩 进 方式 分 隔 代 码 块 ， 衬 格 或 者 Tab 键 不 再 是 你 心血 来 
潮 的 时 候 可 以 随便 敲 敲 解 间 的 了 ， 对 于 Python 解 释 器 而 言 ， 它 们 直接 关 
平 代码 的 语法 和 逻辑 ， 一 不 小 心 束 会 出 现 unexpected indent 错 误 。Python 
的 这 一 特点 也 曾 引起 不 少 和 争议 ， 强 制 代码 缩 进 就 像 一 把 双 娘 人 环 ， 有 利 有 
弊 。 对 于 从 其 他 编程 语言 转 过 来 学 习 Python 的 人 来 说 ， 也 许 需要 一 段 时 
间 去 适应 。 但 不 可 和 否认， 严格 的 缩 进 确实 能 让 代码 更 加 规范 、 整 齐 ， 可 
读 性 和 可 维护 性 都 会 更 高 。 避 免 缩 进 市 来 的 困扰 的 方法 之 一 融 是 养 成 民 
好 的 习惯 ， 统 一 缩 进 风格 ， 不 要 混用 Tab 键 和 空格 。 


C 语 言 中 单 引号 (') 与 双 引 号 (") 有 严格 的 区 别 ， 单 引号 代表 一 
个 字符 ， 它 实际 对 应 于 编译 器 所 采用 的 字符 集中 的 一 个 整数 值 。 例 如 在 
ASCII 码 中 ，'"a 与 97 相 对 应 。 而 双 引 号 则 表示 字符 串 ， 默 认 以 \O' 结 尾 。 
但 在 Python 中 ， 单 引号 与 双 引 号 没有 明显 区 别 ， 仅 仅 在 输入 字符 串 内 容 
不 同时 ， 在 使 用 上 存在 微小 差异 。 





























>>> String1 = "He said, \"Hello\"" # 
字符 串 中 本 身 的 双 引 号 需要 转 义 

>>> stringi 

"He said, "HelL1o" 





>>> string2 = 'He said,"Hello"' # 
字符 串 本 身 的 双 引 号 不 需要 转 义 
>>> i 


Gtr 
"He said, "Hello"' 





(3) 三 元 操作 符 “3 


三 元 操作 符 是 if...else 的 简写 方法 ， 语 法 形式 为 C ? X: Y， 它 表示 当 
条 件 C 为 True 的 时 候 取 值 X，C 为 False 的 时 候 取 值 为 Y。 其 简洁 的 表达 形 
式 一 直 很 受 欢迎 。 但 在 Python ”2.5 之 前 并 不 支持 三 元 操作 符 。 为 此 ， 人 
们 想 出 了 不 少 蔡 代 方式 ， 但 在 特殊 情形 下 存在 一 些 问 题 ， 因 此 很 多 人 对 
Python 语言 本 身 加 入 该 特征 也 提出 了 不 少 建议 ， 最 终 PEP308 被 接受 ， 根 
据 提 议 采 用 让...else... 形 式 实现 条 件 表达 式 。C ? X: Y 在 Python 中 等 价 的 形 
式 为 Xif C else Y， 即 : 








>>> X=0 

>>> Y=-2 

>>> print X if X<Y else Y 
-2 





(4) switch...case 


Python 中 没有 像 C 语 言 那样 的 switch...case 分 支 语 句 ， 不 过 这 不 是 什 
么 难事 ，Python 中 有 很 多 蔡 代 的 解决 方法 。 假 设 ， 用 C 语 言 实 现 的 
switch...case 语 句 如 下 : 





switch(n) { 
case 0: 
printf("You typed zero.\n"); 
ak; 


case 1: 
printf("You are in top.\n"); 
break; 


Case 2: 
printf("n is an even number\n"); 
default: 
printf("Only single-digit numbers are allowed\n"); 
reak; 


} 





与 以 上 C 语 言 中 switch...case 对 应 的 Python 实 现 如 下 : 





if n == 0: 
print "You typed zero.\n" 
elif n== 1: 
print "You are in top.\n" 
elif n == 2: 
print "n is an even number\n" 
else: 
print "Only single-digit numbers are allowed\n" 





或 者 使 用 以 下 跳 转 表 来 实现 : 





def f(x): 
return 
0: "You typed zero.\n", 
1: "You are in top.\n", 
2: "nis an even number\n" 
}.get(n, "Only single-digit numbers are allowed\n") 





以 上 只 是 简单 列举 了 几 个 Python 和 其 他 语言 的 不 同 点 ， 事 实 上 ， 其 
差异 性 远 远 不 止 这 些 。 但 总 归 一 句 话 : 不 要 被 其 他 语言 的 思维 和 习惯 困 
扰 ， 和 掌握 Python 的 哲学 和 思维 方式 才 是 硬 着 理 。 正 如 前 面 所 说 ， 要 舍得 
抛 寞 具有 目 我 风格 的 代码 ， 尽 量 章 循 Pythonic 代 码 的 编码 规范 和 风格 。 


建议 4: 在 代码 中 适当 添加 注释 
Python 中 有 3 种 形式 的 代码 注释 : 块 注释 、 行 注释 以 及 文档 注释 
Cdocstring) 。 这 3 种 形式 的 惯用 法 大 概 有 如 下 几 种 : 


1) 使 用 块 或 者 行 注释 的 时 候 仪 仅 注释 那些 复杂 的 操作 、 算 法 ， 还 
有 可 能 别人 难以 理解 的 技巧 或 者 不 够 一 目 了 然 的 代码 。 


2) 注释 和 代码 隔 开 一 定 的 距离 ， 同 时 在 块 注释 之 后 最 好 多 留 儿 行 
空白 再 写 代 码 。 下 面 两 行 代码 显然 第 一 行 的 阅读 性 要 好 。 











X=X+ 工 # increace x by 1 
© 

x=x+1 #increase x by 1 

©@ 





3) 给 外 部 可 访问 的 函数 和 方法 (无 论 是 否 简单 ) 添加 文档 注释 。 
注释 要 清楚 地 描述 方法 的 功能 ， 并 对 参数 、 返 回 值 以 及 可 能 发 生 的 弄 常 
进行 说 明 ， 使 得 外 部 调用 它 的 人 员 仅 仅 看 docstring 就 能 正确 使 用 。 较 为 
复杂 的 内 部 方法 也 需要 进行 注释 。 推 荐 的 函数 注释 如 下 : 








def Fu hea natparene eter1 ，pa a Ste 的 
ibe what this fu do 
fouch as "Find whethe ? ee cial string is in the queue or not" 
Args 
pa arameteri1: par ete te 汪 a is this param me er used fo 
eh as st tring,string queue list ror sear ch 
parameter2: par rameter ae hat is this param eer used fo 
ch as str:string,string to find 


return type, return value. 
#SU eh as boolean,sepcial string found return True,else return False 


function body 





4) 推荐 在 文件 头 中 包含 copyright 申 明 、 模 块 描述 等 ， 如 有 必要 ， 
可 以 考虑 加 入 作者 信息 以 及 变更 记录 。 





Licensed Materials - Property of CorpA 
(C) Copyright A Corp. 1999, 2011 All Rights Reserved 


CopyRight statement and purpose... 


下 于 me 下 
Des ption d pt hat the f f th Ti] 
Author: Aut 
Change Activity 
list the chang tivity and t d th f 





有 人 说 ， 写 代码 束 像 写 诗 ， 你 见 过 谁 在 自己 写 的 诗 里 加 注释 吗 ? 这 
种 说 法 受到 许多 人 的 追捧 ， 包 括 一 些 Python 程序 员 。 但 我 的 看 法 是 ， 代 
码 跟 诗 不 太一 样 ， 需 要 适当 添加 注释 。 注 释 直 接 关 系 到 代码 的 可 读 性 和 
可 维护 性 ， 同 时 它 还 能 够 帮助 发 现 错误 的 藏身 之 处 。 因 为 代码 是 说 明 你 
怎么 做 的 ， 而 好 的 注释 能 够 说 清楚 你 想 做 什么 ， 它 们 相辅相成 。 但 往往 
有 些 程序 员 并 不 重视 它 ， 原 因 是 多 方面 的 ， 有 人 和 觉得 程序 的 实现 才 是 最 
重要 的 ， 人 至 于 注释 是 一 件 浪费 时 间 的 事情 还 有 的 人 明明 知道 注释 很 重 
要 ， 可 是 太 懒 ， 不 愿意 写 或 者 随便 应 付 ， 也 有 人 重视 注释 但 却 不 得 要 
nn 

常见 例子 。 


示例 一 : 代码 即 注释 不 写 注释 ) 。 没 有 注释 的 代码 通常 会 给 他 人 
的 阅读 和 理解 带 来 一 定 困难 ， 即 使 是 自己 写 的 代码 ， 过 一 段 时 间 再 回头 
阅读 可 能 也 需要 一 定时 间 才 能 理解 当初 的 思路 。 





























a=3 

n=5 

count, sn, tn=1, 0,0 

while count<=n: 

5 tn+=a 
sn+=tn 
a*=10 
Count+=1 

print sn 





示例 二 : 注释 与 代码 重复 。 注 释 应 该 是 用 来 解释 代码 的 功能 、 原 因 
以 及 想法 的 ， 而 不 是 对 代码 本 里 的 解释 。 





# coding=u 

print "ple input numb 
n=input() 

print "ple input numb 
m=input() 

t=n/2 #t 
是 n 

的 一 半 


# 
循环 ， 条 件 为 t*m/n 
A 


i 
while(t*m/(n+1) < n): 
t=0.5*m+n/2 # 





重新 计算 t 
值 


Dr 





示例 三 :利用 注释 语法 快速 删除 代码 。 对 于 不 再 需要 的 代码 ， 应 该 
将 其 删除 ， 而 不 是 将 其 注释 控 。 即 使 你 担心 以 后 还 会 用 到 ， 版 本 控制 工 
有 共 也 可 以 让 你 轻松 找 回 被 删除 的 代码 。 





X=2 

y=5 

Z=3 

"""following code is long ded ther bett y 
if x>y:t=x;x=y;y=t 

if x>z:t=z;z=x;Xx=t 

if y>z:t=y;y=z;z=t 

print "the order from small to big %d %d %d" % (x,y,z) 
order_list=[x,y,z] 

order_list.sort() 

print order_list 








其 他 比较 常见 的 问题 还 包括 : 代码 不 断 更 新 而 注释 却 没有 更 新 ， 注 
释 比 代 码 本 里 还 复杂 烦 天 ， 将 别处 的 注释 和 代码 一 起 找 贝 过 来 ， 但 上 下 
文 的 变更 导致 注释 与 代码 不 同步 ， 更 有 个 别人 将 注释 当做 自己 的 娱乐 空 
间 从 而 留 下 个 性 特征 等 ， 这 几 种 行为 都 是 平时 要 注意 避免 的 。 





建议 5: 通过 适当 添加 空 行 使 代码 布局 更 为 优雅、 
合理 


布局 清晰 、 整 洁 、 优 雅 的 代码 能 够 给 阅读 它 的 人 禹 来 愉悦 感 ， 而 且 
它 能 帮助 开发 者 之 间 进 行 良好 的 沟通 。 在 一 个 团队 中 ， 保 持 良好 的 代码 
格式 需要 团队 成 员 在 选取 一 套 合 适 的 代码 格式 规则 的 基础 上 遵从 和 应 
用 。 同 时 它 需 要 每 个 团队 成 员 树立 正确 的 态度 ， 因 为 实际 工作 中 有 很 多 
开发 者 抱 厦 这 样 的 想法 :“ 代 码 能 工作 才 是 最 重要 的 "， 但 往往 代码 会 不 
断 修改 ， 且 可 读 性 直接 关系 到 可 维护 性 和 可 扩展 性 。 因 此 我 们 需要 端正 
态度 一 一 “代码 不 是 恒定 的 ， 只 有 风格 才能 延续 ， 能 工作 的 代码 和 整 
洁 、 优 雅 的 格式 同样 重要 ”。 


为 了 让 读者 更 加 深入 地 理解 代码 布局 的 重要 性 ， 我 们 先 来 看 一 个 猜 
数字 游戏 的 示例 。 下 面 两 段 代码 ， 编 码 完 全 相同 ， 只 是 在 排版 上 做 了 一 
定 修改 ， 你 觉得 哪个 更 加 容易 阅读 呢 ? 








示例 一 : 





import random 
guesses_made = 0 
name = raw_input('Hello! What is your name?\n') 
number = random.randint(1, 20 
print 'Wwell, {0}, I am thinking of a number between 1 and 20.'.format(name) 
while guesses made < 6: 
guess = int(raw_ input('Take a guess: ')) 
guesses_made += 
if guess < number: 
print 'Your guess is too low.' 
if guess > number: 
print 'Your guess is too high.' 
if guess == number: 
Break 
if guess == number: 
print 'Good job, {0}! You guessed my number in {1} guesses!'.format(name, guesses made) 
Glee: 
print 'Nope. The number I was thinking of was {0}'.format(number) 





示例 二 : 





import random 
guesses made = 0 
name = raw_input('Hello! What is your name?\n') 
number = random.randint(1, 20 
print 'well, {0}, I am thinking of a number between 1 and 20.'.format(name) 
while guesses made < 6: 
guess = int(raw_ input('Take a guess: ')) 
guesses_made += 
if guess < number:print 'Your guess is too low.' 


if guess > mbe Bip nt 'Yo guess is too high.' 
if 25 == nunbe :break 
if guess == mbe os Dr 'Good job, {0}! You gu ed my n n {1} gu 
fri gu x 
else:print 'Nope he 时 mber I was thinking of was {0}'.format(number) 





看 了 上 面 两 个 例子 ， 相 信 很 多 读者 都 倾 同 于 阅读 第 一 个 例子 ， 这 就 
是 代码 布局 和 排版 带 给 我 们 的 最 直观 的 感受 (注意 : 本 书 其 他 章节 的 例 
子 为 了 尽量 使 代码 占用 更 少 的 篇 幅 ， 采 取 了 第 二 种 排版 形式 ， 但 在 实际 
项 目 开 发 中 更 推荐 第 一 种 ) 。 和 其 他 语言 一 样 ，Python 代 码 布局 也 有 一 
些 基本 规则 可 以 遵循 。 


1) 在 一 组 代码 表达 完 一 个 完整 的 思路 之 后 ， 应 该 用 空白 行进 行 间 
隔 。 如 每 个 函数 之 间 ， 导 入 声明 、 变 量 赋值 等 。 通 俗 点 讲 就 是 不 要 在 一 
段 代码 中 说 明 几 件 事 。 推 荐 在 函数 定义 或 者 类 定义 之 间 空 两 行 ， 在 类 定 
义 与 第 一 个 方法 之 间 ， 或 者 需要 进行 语义 分 割 的 地 方 空 一 行 。 如 示例 一 
在 import 声 明和 变量 赋值 之 间 插入 了 空 行 。 但 读者 需要 注意 的 是 : 空 行 
是 在 不 隔断 代码 之 间 内 在 联系 的 基础 上 插入 的 ， 也 就 是 说 有 关联 的 代码 
还 是 需要 保持 紧凑 、 连 续 。 在 示例 一 中 ， 如 果 你 在 if 和 else 之 间 插入 空 行 
就 显得 非常 没有 必要 ， 就 像 下 面 的 代码 ; 

















if guess == number : 
print 'Good job, {0}! You guessed my number in {1} guesses!'.format(name, guesses_ made) 


Glae: 
print 'Nope. The number I was thinking of was {0}'.format(number) 





2) 尽量 保持 上 下 文 语义 的 易 理解 性 。 如 当 一 个 函数 需要 调用 为 一 
个 函数 的 时 候 ， 尽 量 将 它们 放 在 一 起 ， 节 好 调用 者 在 上 ， 被 调用 者 在 
下 。 例 如 下 面 的 代码 : 











def A(): 
B 

def B(): 
pass 








3) 避免 过 长 的 代码 行 ， 每 行 最 好 不 要 超过 80 个 字符 。 以 每 屏 能 够 
显示 完整 代码 而 不 需要 拖 动 滚动 条 为 最 佳 ， 超 过 的 部 分 可 以 用 圆 括号 、 
行 行 连接 ， 并 且 保 持 行 连接 的 元 素 垂 直 对 齐 。 例 如 
下 














= is is a very long string'’ 

. 'it is used for testing line limited characters') 

>>> print x 

this is a very long st 

>>>def Draw Line(ponit 
color='green',wi 


ringit is used for testing line limited characters 
X1, pointY1, pointX2=1, pointY2=2, 
idth=2, style='bold' ): 





4) 不 要 为 了 保持 水 平 对 齐 而 使 用 多 余 的 空格 ， 其 实 使 阅读 者 尽 可 
能 容易 地 理解 代码 所 要 表达 的 意义 更 重要 。 如 下 列 代码 的 主要 目的 古 赋 
值 ， 为 了 可 以 保持 对 齐 往往 会 造成 “ 喧 宾 和 村主”。 





X= 号 
Year = 2013 


name = "Jam" 
d2 = {'spam': 2,'eggs': 3} 





同时 也 不 要 在 一 行 有 多 个 命令 ， 如 不 要 将 X=1;Y=2; 直 接 写 在 一 行 


5) 空格 的 使 用 要 能 够 在 需要 强调 的 时 候 警 示 该 者 ， 在 中 松 关系 的 
ee 而 在 共有 紧密 关系 的 时 候 不 要 使 用 空格 。 具 体 细 
节 如 下 : 


ts 
in，not in，is，is not) 、 布 尔 运算 (and，or，not) ) 的 左右 两 边 应 该 
有 空格 ， 如 x == 1。 











函数 名 和 左 插 号 之 间 、 序 列 索 引 操 作 时 序列 名 和 [ ”] 之 间 不 需要 空 
格 ， 函 数 的 默认 参数 两 侧 不 需要 空格 。 


强调 前 面 的 操作 符 的 时 候 使 用 空格 ， 如 -2 - 5 在 -2 和 5 之 间 的 减 写 
前 后 需要 添加 空格 ) 、b*b + axc《〈 在 加 号 前 后 需要 添加 空格 ) 。 





建议 6: 编写 函数 的 4 个 原则 


函数 能 够 带 来 最 大 化 的 代码 重用 和 最 小 化 的 代码 见 余 。 精 心 设计 的 
函数 不 仅 可 以 提高 程序 的 健壮 性 ， 还 可 以 增强 可 读 性 、 减 少 维护 成 本 。 
先 来 看 以 下 示例 代码 : 





def SendCcontent(ServerAdr,PagePath, StartLine,EndLine, sender 
receiver, smtpserver,username, password): 

http = httplib.HTTP(ServerAdr) 
http.putrequest('GET', PagePath) 
http.putheader('Accept', 'text/html') 
http.putheader('Accept', 'text/plain') 
http.endheaders() 
httpcode, httpmsg, headers = http.getreply() 
if httpcode != 200:raise "Could not get document: Check URL and Path." 
doc = http.getfile() 
data = doc.read() 
doc.closel( 
lstr=data.splitlines() 


j= 
For 1 in lstr: 


=i 

if i.strip() == StartLine: slice_ start=j #find slice Start 

elif i.strip() == EndLine: Slice_end=j #find slice end 
subject = "Contented get from the web" 


msg = MIMEText(string.join(lstr[slice start:slice end]), 'plain', 'utf-8') 
msg['Subject'] = Header(subject, 'utf-8') 

smtp = smtplib.SMTP() 

smtp.connect(smtpserver) 

smtp.login(username, password) 

smtp.sendmail(sender, receiver, msg.as_string()) 

smtp.quit() 





函数 SendContent 主 要 的 作用 是 抓 取 网 页 中 国定 的 内 容 ， 然 后 将 其 及 
送 给 用 户 。 代 码 本 身 并 不 复杂 ， 但 足以 说 明 一 些 问 题 。 读 者 可 以 移 思 
一 下 : 到 底 有 什么 不 是 之 处 ? 能 否 进一步 改进 ? 怎样 才能 做 到 一 目 了 然 
呢 ? 一般 来 说 函数 设计 有 以 下 基本 原则 可 以 参考 : 


原则 1 函数 设计 要 尽量 短小 ， 嵌 套 层 次 不 宜 过 深 。 所 谓 短 小 ， 就 
是 跟前 面 所 提 到 的 一 样 尽 量 避 免 过 长 函数 ， 因 为 这 样 不 需要 上 下 拉动 滚 
动 条 就 能 获得 整体 感 观 ， 而 不 是 来 回 翻动 屏幕 去 寻找 某 个 变量 或 者 某 条 
逻辑 判断 等 。 函 数 中 需要 用 到 if、elif、while、for 等 循环 语句 的 地 方 ， 
尽量 不 要 骸 套 过 深 ， 最 好 能 控制 在 3 层 以 内 。 相 信 很 多 人 有 过 这 样 的 经 
历 : 为 了 弄 清楚 哪 段 代 码 属 于 内 部 钥 套 ， 哪 段 属于 中 间 层 次 的 散 套 ， 哪 
段 属 于 更 外 一 层 的 峙 套 所 花费 的 时 间 比 读 代码 细节 所 用 时 间 更 多 。 


原则 2 ”函数 申明 应 该 做 到 合理 、 简 单 、 易 于 使 用 。 除 了 函数 名 能 
够 正确 反映 其 大 体 功能 外 ， 参 数 的 设计 也 应 该 简洁 明了 ， 人 参数 个 数 不 宜 
大多。 参数 太 多 珊 来 的 竞 问 是 : 调用 者 需要 人 花费 更 多 的 时 间 去 理解 每 个 
参数 的 意思 ， 测 试 人 员 需 要 花费 更 多 的 精力 来 设计 测试 用 例 ， 以 确保 参 

















数 的 组 合 能 够 有 合理 的 输出 ， 这 使 覆 凋 测试 的 难度 大 大 增加 。 因 此 函数 
参数 设计 最 好 经 过 深思 熟 虑 。 


原则 3 ”函数 参数 设计 应 该 考虑 向 下 兼容 。 实 际 工作 中 我 们 可 能 
临 这 样 的 情况 ， 随 着 需求 的 变更 和 版 本 的 升级 ， 在 前 一 个 版 本 中 设计 的 
函数 可 能 需要 进行 一 定 的 修改 才能 满足 这 个 版 本 的 要 求 。 因 此 在 设计 过 
程 中 除了 着 眼 当前 的 需求 还 得 考虑 向 下 兼容 。 如 以 下 示例 : 




















eadfile(filename ) : 
Dm 人 
file read completed" 


i eadfi le te st， txt") 
file ed 
>>> 
import logging 
> 


eadfile(file e logger ) : 
Dm 二 
file read completed" 


>>> oot ies Se ty 

racebae k (mo nt call last): 

Le Re 1, in To 

eEr sad 人 le() ta ke exactly 2 arguments (1 given) 





上 面 的 代码 是 相同 功能 的 函数 不 同 版 本 的 实现 ， 唯 一 不 同 的 是 在 更 
高 级 的 版 本 中 为 了 便于 内 部 维护 加 入 了 日 志 处 理 ， 但 这 样 的 变动 却 导 致 
程序 中 函数 调用 的 接口 发 生 了 改变 。 这 并 不 是 最 佳 设 计 ， 更 好 的 方法 是 
en 
:三 修改 为 ， 








def readfile(filename,1ogger=1ogger .info) : 


原则 4 一 个 函数 只 做 一 件 事 ， 尽 量 保 证 函数 语句 粒度 的 一 致 性 。 
如 本 市 开头 所 示人 代码 中 就 有 3 个 不 同 的 任务 : 获取 网 页 内 容 、 碍 找 指定 
网 页 内 容 、 友 送 邮 件 。 要 保证 一 个 函数 只 做 一 件 事 ， 就 要 尽量 保证 抽象 
层级 的 一 致 性 ， 所 有 的 语句 尽量 在 一 个 粒度 上 。 如 上 例 既 有 http.getfile0) 
这 样 较 高 层级 抽象 的 语句 ， 也 有 细 粒 度 的 字符 处 理 语 句 。 同 时 在 一 个 函 
数 中 处 理 多 件 事情 也 不 利于 代码 的 重用 ， 在 上 例 中 ， 如 果 程 序 中 还 有 类 
似 发 送 邮件 的 需求 ， 必 然 造 成 代码 的 元 余 。 


最 后 ， 根 据 以 上 几 点 原则 ， 上 面 对 本 节 最 开始 处 的 代码 进行 修改 ， 
来 看 看 修改 后 的 代码 是 不 是 可 读 性 要 好 一 些 。 








def GetCcontent (ServerAdr,PagePath ) : 
http = httplib.HTTP(ServerAdr) 
http.putrequest('GET', PagePath) 
http.putheader('Accept', 'text/html') 
http.putheader('Accept', 'text/plain') 
http.endheaders() 
httpcode, httpmsg, headers = http.getreply() 
if httpcode != 200: 

raise "Could not get document: Check URL and Path." 

doc = http.getfile() 
data = doc.read() # read file 
doc.close() 
return data 

def ExtractData(inputstring, start_line, end_line): 


lstr=inputstring.splitlines() #Split 
j=0 #set counter to zero 
TOP 10 LStr: 
j=j+1 
if i.strip() == start_line: slice_start=j #find slice start 
elif i.strip() == end_line: slice_end=j #find slice end 
return lstr[slice_ start:slice end] #return slice 
def SendEmail(sender,receiver,smtpserver,username,password,content): 
subject = "Contented get from the web" 


msg = MIMEText(content, 'plain', 'utf-8') 
msg['Subject'] = Header(subject, 'utf-8') 

smtp = smtplib.SMTP() 

smtp.connect(smtpserver) 

smtp.login(username, password) 
smtp.sendmail(sender, receiver, msg.as_string()) 
smtp.quit() 





Python 中 池 数 设计 的 好 习惯 还 包括 : 不 要 在 函数 中 定义 可 变 对 象 作 
为 默认 值 ， 使 用 异常 伙 换 返回 错误 ， 保 证 通过 单元 测试 等 。 





建议 7; 将 利 量 集中 到 一 个 文件 


Python 中 存在 常量 吗 ? 相信 很 多 人 的 答案 是 否定 的 。 实 际 上 Python 
的 内 建 命名 空间 是 支持 一 小 部 分 常量 的 ， 如 我 们 熟悉 的 True、False、 
None 等 ， 只 是 Python 没 有 提供 定义 常量 的 直接 方式 而 已 。 那 么 ， 在 
Python 中 应 该 如 何 使 用 常量 呢 ? 一 般 来 说 有 以 下 两 种 方式 : 


.通过 命名 风格 来 提醒 使 用 者 该 变量 代表 的 意义 为 常量 ， 如 常量 名 
所 有 字母 大 写 ， 用 下 划 线 连接 各 个 单词 ， 如 MAX_OVERFLOW、 
TOTAL 。 然 而 这 种 方式 并 没有 实现 真正 的 常量 ， 其 对 应 的 值 仍 然 可 以 
改变 ， 这 只 是 一 种 约定 俗 成 的 风格 。 


通过 自 定 义 的 类 实现 常量 功能 。 这 要 求 符合 “命名 全 部 为 大 
写 ” 和 * 值 一 旦 绑 定 便 不 可 再 修改 ”这 两 个 条 件 。 下 面 是 一 种 较为 常见 的 
解雇 方法 ， 它 通过 对 常量 对 应 的 值 进行 修改 时 或 者 命名 不 符合 规范 时 抛 
出 异常 来 满足 以 上 常量 的 两 个 条 件 。 




















class _const: 
class ConstError(TypeError): pass 
class ConstCaseError(ConstError): pass 


e 
me): 
se self.ConstError, "Can't change const.%s" % name 


or, 

'const name "%s" is not all uppercase' % name 
self._dict_ [name] = value 

import sys 

sys.modules[_ name 1]=_const() 





如 果 上 面 的 代码 对 应 的 模块 名 为 const， 使 用 的 时 候 只 需要 import 
const， 便 可 以 直接 定义 常量 了 ， 如 以 下 代码 : 











import const 
const.COMPANY = "IBM" 





上 面 的 代码 中 第 量 一 旦 赋值 便 不 可 再 更 改 ， 因 此 const.COMPANY = 
"SAP" 会 抛 出 const.ConstError: 异 常 ， 而 常量 名 称 如 果 小 写 ， 如 
const.name = "Python"， 也 会 抛 出 const.ConstCaseError 异 第 。 











无 论 采 用 哪 一 种 方式 来 实现 常量 ， 都 提倡 将 常量 集中 到 一 个 文件 
中 ， 因 为 这 样 有 利于 维护 ， 一 旦 需要 修改 第 量 的 值 ， 可 以 集中 统一 进行 
而 不 是 逐个 文件 去 检查 。 采 用 第 二 种 方式 实现 的 常量 可 以 这 么 做 : 将 存 
放 常 量 的 文件 命名 为 constant.py， 并 在 其 中 定义 一 系列 常量 。 














class _const: 
class ConstError(TypeError): pass 
class ConstCaseError(ConstError): pass 
def _ setattr__(self, name, value): 
if self._ dict__.has_key(name): 
raise self.ConstError, "Can't change const.%s" % name 
if not name.isupper(): 
raise self.ConstCaseError, \ 
'const name "%s" is not all uppercase' % name 
self._dict_ [name] = value 
import sys 
sys.modules[__name_ _]=_const() 
import const 
const.MY_CONSTANT = 1 
const.MY_SECOND_CONSTANT = 2 
const.MY_THIRD_CONSTANT = "al' 
Const .MY_FORTH_CONSTANT = 'b"' 








当 在 其 他 模块 中 引用 这 些 常量 时 ， 按 照 如 下 方式 进行 即 可 : 





from constant import const 

print const.MY_SECOND_CONSTANT 
print const.MY_THIRD_CONSTANT*2 
print const.MY_FORTH_CONSTANT+ '5 





第 2 革 ”编程 惯 用 法 


编程 语言 通 冲 都 有 其 惯用 法 ， 掌 握 这 些 惯 用 法 能 够 帮助 我 们 写 出 更 
为 专业 和 精简 的 程序 ， 所 以 说 ， 掌 握 这 些 惯用 法 是 非常 必要 的 。 本 章 主 
要 讨论 Python 中 一 些 常见 的 编程 惯用 法 以 及 其 所 涉及 的 一 些 编程 思想 。 





建议 8: 利用 assert 语 名 来 发 现 问题 


断言 〈assert) 在 很 多 语言 中 都 存在 ， 它 主要 为 调试 程序 服务 ， 能 
够 快速 方便 地 检查 程序 的 异常 或 者 发 现 不 恰当 的 输入 等 ， 可 防止 意 想 不 
到 的 情况 出 现 。Python 自 1.5 版 本 开始 引入 断言 语句 ， 其 基本 语法 如 下 : 








assert expression1 ["," expression2] 





其 中 计算 expression 1 的 值 会 返回 True 或 者 False， 当 值 为 False 的 时 医 
会 引 人 AssertionE or 而 expression 2 是 可 选 的 ， 负 用 来 传递 具体 的 异 


全 
号 4U oO 


来 看 一 个 简单 的 使 用 例子 : 





> X =1 
Sa 
>>> assert x == y,"not equals" 
Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 
AssertionError: not equals 
>>> 





在 执行 过 程 中 它 实 际 相当 于 如 下 代码 : 





> x =1 
he i 
3 一 debu ug__ and not x 
raise AssertionErro or 站 5 equals") 


Trace back (most recent call last): 

i :0 ine 2, in <module> 
AssertionError: not equals 
>>> 





对 Python 中 使 用 断言 需要 说 明 如 下 : 


1) debug_ 的 值 默 认 设 置 为 True， 且 是 只 读 的 ， 在 Python2.7 中 还 
无 法 修改 该 值 。 





2) 断言 是 有 代价 的 ， 它 会 对 性 能 产生 一 定 的 影响 ， 对 于 编译 型 的 
语言 ， 如 C/C++， 这 也 许 并 不 那么 重要 ， 因 为 断言 只 在 调试 模式 下 局 
用 。 但 Python 并 没有 严格 定义 调试 和 发 布 模式 之 间 的 区 别 ， 通 党 茶 用 断 
言 的 方法 是 在 运行 脚本 的 时 候 加 上 -O 标 志 ， 这 种 方式 带 来 的 影响 是 它 并 
不 优化 字 节 码 ， 而 是 忽略 与 断言 相关 的 语句 。 如 : 




















assert 








assert x 





加 上 -O 的 参数 : python -O asserttest.py 便 可 以 禁用 上 断言 。 


有 条 言 实际 是 被 设计 用 来 捕获 用 户 所 定义 的 约束 的 ， 而 不 是 用 来 捕获 
程序 本 刁 错 误 的 ， 因 此 使 用 断言 需要 注意 以 下 几 点 : 


1) 不 要 滥用 ， 这 古 使 用 断言 最 基本 的 原则 。 辱 由 于 断言 引发 了 异 
常 ， 通 常 代表 程 序 中 存在 bug。 因 此 断言 应 该 使 用 在 正常 逻辑 不 可 到 达 
的 地 方 或 正常 情况 下 总 是 为 真 的 场合 。 


2) 如 果 Python 本 里 的 异常 能 够 处 理 就 不 要 再 使 用 断言 。 如 对 于 类 
似 于 数组 越界 、 关 型 不 匹配 、 除 数 为 0 之 类 的 错误 ， 不 建议 使 用 断言 来 
进行 处 理 。 下 面 的 例子 中 使 用 断言 就 显得 多 余 ， 因 为 如 果 传 入 的 参数 一 
个 为 字符 串 ， 男 一 个 为 数字 或 者 列表 ， 本 里 束 会 抛 出 TypeError。 














> -def str add(x 人 


ce(x, ri 
ee isi 和 人 站 人 
return 交 











3) 不 要 使 用 断言 来 检查 用 尸 的 输入 。 如 对 于 一 个 数字 类 型 ， 如 果 
根据 用 户 的 设计 该 值 的 范围 应 该 是 2 一 10， 较 好 的 做 法 是 使 用 条 件 判 
晰 ， 并 在 不 符合 条 件 的 时 候 输 出 错误 提示 信息 。 


4) 在 函数 调用 后 ， 当 需要 确认 返回 值 是 售 合 理 时 可 以 使 用 断言 。 


5) 当 条 件 是 业务 逻辑 继续 下 去 的 先决 条 件 时 可 以 使 用 断言 。 如 
listL 和 其 副本 list2， 业 务 继续 下 去 的 条 件 是 这 两 个 list 必 须 是 一 样 的 ， 但 
由 于 茶 些 不 可 控 因 素 ， 如 使 用 了 浅 找 贝 而 listt 中 含有 可 变 对 象 等 ， 束 可 
以 使 用 断言 来 判断 这 两 者 的 关系 ， 如 果 不 相 等 ， 则 继续 运行 后 面 的 程序 


意义 不 大 。 





建议 9: 数据 交换 值 的 时 候 不 推荐 使 用 中 间 变 量 
交换 两 个 变量 的 值 ， 大 家 熟悉 的 代码 如 下 : 





不 
ll 


te 


实际 上 ， 在 Python 中 还 有 更 简单 、 更 Pythonic 的 实现 方式 ， 代 码 如 
下 : 


PP> XrYy = YrX 


上 上 面 的 实现 方式 不 需要 借助 任何 中 间 变 量 并 且 能 够 获取 更 好 的 性 
能 。 我 们 来 简单 测试 一 下 。 


>>> om timeit mport. Timer 

Timer( mp = x;x = y;y = temp','x=2;y =3').timeit() 

0 10689428530212189 
xy = y,xX','xX=2;y=3').timeit() 

7133 


从 测试 结果 可 以 看 出 ， 第 二 种 方式 耗费 的 时 间 更 少 ， 并 且 由 于 不 需 
要 借助 中 间 变 量 ， 代 码 更 为 简洁 ， 是 值得 推荐 的 一 种 方式 。 那 么 ， 为 什 
么 第 二 种 方式 可 以 做 到 更 优 昵 ? 这 要 从 Python 表达 式 计算 的 顺序 说 起 。 
一 般 情 况 下 Python 表达 式 的 计算 顺序 是 从 左 到 右 ， 但 遇 到 表达 式 赋值 的 
时 候 表 达 式 右边 的 操作 数 先 于 左边 的 操作 数 计算 ， 因 此 表达 式 expr3， 
expr4= expr1，expr2 的 计算 顺序 是 expr1，expr2 -> expr3，expr4。 因 此 对 
于 表达 式 x，y=y，x， 其 在 内 存 中 执行 的 顺序 如 下 : 


1) 先 计 算 右边 的 表达 式 y，x， 因 此 先 在 内 存 中 创建 元 组 (y， 
x) ， 其 标示 符 和 值 分 别 为 y、x 及 其 对 应 的 值 ， 其 中 y 和 x 是 在 初始 化 时 
已 经 存在 于 内 存 中 的 对 象 。 

















2) 计算 表达 式 左 边 的 值 并 进行 赋值 ， 元 组 被 依次 分 配给 左边 的 标 
示 符 ， 通 过 解压 缩 Cunpacking) ， 元 组 第 一 标识 符 〈 为 y) 分 配给 左边 
第 二 个 元 素 《 此 时 为 x) ;元 组 第 三 个 标识 符 为 x) 分 配给 第 三 个 元 素 

(此 时 为 Y) ， 从 而 达到 x、y 值 交换 的 目的 。 


更 深入 一 点 我 们 从 Python 生成 的 字 节 码 来 分 机 。Python 的 字 节 码 是 
一 种 类 似 汇编 指令 的 中 间 语 言 ， 但 是 一 个 字 节 码 指令 并 不 是 对 应 一 个 机 
俐 指令 。 我 们 通过 以 下 dis 模 块 的 来 进行 分 析 : 








>>> import dis 
>>> def swap1(): 
A x =2 


y =3 
A 


>>> def swap2(): 
Sg x =2 


y =3 
temp = x 
x=y 
¥ y = temp 
>>> print 'swap1():" 
swap1(): 
>>> dis.dis(swap1) 
2 0 LOAD_CONST 1 (2) 
3 STORE_FAST 9 (x) 
3 6 LOAD_CONST 2 (3) 
9 STORE_FAST 1 (y) 
4 12 LOAD_FAST 1 (y) 
15 LOAD_FAST 9 (x) 
18 ROT_TWO 
19 STORE_FAST 9 (x) 
22 STORE_FAST 1 (y) 
25 LOAD_CONST 9 (None) 
28 RETURN_VALUE 
>>> print 'swap2():" 
swap2(): 
>>> dis.dis(swap2) 
0 LOAD_CONST 1 (2) 
3 STORE_FAST 9 (x) 
6 LOAD_CONST 2 (3) 
9 STORE_FAST 1 (y) 
4 12 LOAD_FAST 9 (x) 
15 STORE_FAST 2 (temp) 
5 18 LOAD_FAST 1 (y) 
21 STORE_FAST 9 (x) 
6 24 LOAD_FAST 2 (temp) 
27 STORE_FAST 1 (y) 
30 LOAD_CONST 9 (None) 





33 RETURN_VALUE 





通过 字 节 码 可 以 看 出 ， 区 别 主要 集中 在 swap1 函 数 的 第 4 行 和 swap2 
函数 的 第 4 一 6 行 代码 ， 其 中 swap1l 的 第 4 行 代 码 对 应 的 字 节 码 中 有 2 个 
LOAD_FAST 指 令 、2 个 STORE_FAST 指 令 和 1 个 ROT_TWO 指 令 ， 而 
swap2 函 数 对 应 的 第 4 一 6 行 代码 中 共生 成 了 3 个 LOAD_FAST 指 令 和 3 个 
STORE_FAST 指 令 。 而 指令 ROT_TWO 的 主要 作用 是 交换 两 个 栈 的 最 顶 
层 元 素 ， 它 比 执行 一 个 LOAD_FAST+STORE_FAST 指 令 更 快 。 


建议 10: 充分 利用 Lazy evaluation 的 特性 


Lazy evaluation 常 被 译 为 “延迟 计算 ”或 “惰性 计算 ”， 指 的 是 仅仅 在 真 
需要 执行 的 时 候 才 计算 表达 式 的 值 。 充 分 利用 Lazy evaluation 的 特性 
和 六 在 以 下 两 个 方面 : 


1) 避免 不 必要 的 计算 ， 带 来 性 能 上 的 提升 。 对 于 Python 中 的 条 件 
表达 式 if x and y， 在 x 为 false 的 情况 下 y 表 达 式 的 值 将 不 再 计算 。 而 对 于 
if x or y， 当 x 的 值 为 true 的 时 候 将 直接 返回 ， 不 再 计算 y 的 值 。 因 此 编程 
”0 下 面 的 例子 用 于 判断 一 个 单词 是 不 是 指定 的 缩 
7 











= Ee ge 
(eto) 
n (mM ris 1 
if w in bbfeviatibns: 
#if w[- 1] = "and w in abbreviations: 


p 
print "total run time:" 
print time()-t 





如 果 使 用 注释 行 代 蔡 第 一 个 f， 运 行 的 时 间 大 约会 节省 10%。 因 此 
在 编程 过 程 中 ， 如 果 对 于 or 条 件 表达 式 应 该 将 值 为 真 可 能 性 较 高 的 变量 
写 在 or 的 前 面 ， 而 and 则 应 该 推 后 。 


2) 节省 空间 ， 使 得 无 限 循环 的 数据 结构 成 为 可 能 。Python 中 最 典 
型 的 使 用 延迟 计算 的 例子 就 是 生成 喜 表 达 式 了 ， 它 仅 在 每 次 需要 计算 的 
时 候 才 通过 yield 产 生 所 需要 的 元 素 。 斐 波 那 契 数列 在 Python 中 实现 起 来 
而 while True 也 不 会 导致 其 他 语言 中 所 遇 到 的 无 限 循 
` 的 问题 。 














ls import islice 
st(islice(fib(), 5)) 





Lazy evaluation 并 不 是 一 个 很 大 、 很 新 鲜 的 话题 ， 但 古人 云 “ 不 积 趾 
步 无 以 至 千里 ”， 小 小 的 改进 便 能 号 出 更 为 优化 的 代码 ， 何 乐 而 不 为 
呢 ? 





建议 11: 理解 枚 举人 答 代 实现 的 缺陷 


关于 枚 举 最 经 典 的 例子 大 概 非 季节 和 星期 英 属 了 ， 它 能 够 以 更 接近 
自然 语言 的 方式 来 表达 数据 ， 使 得 程序 的 可 读 性 和 可 维护 性 大 大 提高 
然而 ， 很 不 地 ， 也 许 你 习惯 了 其 他 语言 中 的 枚 举 类 型 ， 但 在 Python3.4 以 
前 却 并 不 提供 。 关 于 要 不 要 加 入 枚 举 类 型 的 问题 就 引起 了 不 少 讨 论 ， 在 
PEP354 中 曾 提出 增加 枚 举 的 建议 ， 但 被 拒绝 。 于 是 人 们 充分 利用 Python 
的 动态 性 这 个 特征 ， 想 出 了 枚 举 的 各 种 蔡 代 实现 方式 。 


1) 使 用 类 属性 。 











>>> class Season 有 


>>> print Seasons.Spring 





上 面 的 例子 可 以 直接 简化 为 : 





>>> class Season 
Ee Spring,Summer,Autumn,Winter=range(4) 





2) 借助 函数 。 





> def en um(*posarg, 人 rgys 
eturn type("Enum" biGEE ), dict(zip(posarg, xrange(len(posarg))), ** 
keysarg)) 


um("Spring", "Summer", "Autumn",Winter=1) 
>>> Seasons. Sor ing 
9 





3) 使 用 collections.namedtuple。 





>>> Seasons = namedtu 人 Seasons'，'Spring Summer Autumn Winter')._make(range(4)) 
>>> print Seasons .Spri 





Python 中 极 举 的 蔡 代 实现 方式 远 不 止 上 述 这 些 ， 在 此 就 不 一 一 列举 
了 。 那 么 ， 既 然 枚 举 在 Python 中 有 蔡 代 的 实现 方式 ， 为 什么 人 们 还 要 执 
着 地 提出 各 自 建议 要 求 语言 实现 枚 举 昵 ?显然 ， 这 些 蔡 代 实 现 有 其 不 合 
理 的 地 方 。 


:允许 枚 举 值 重复 。 我 们 以 collections.namedtuple 为 例 ， 下 面 的 例子 
中 枚 举 值 Spring 与 Autumn 相 等 ， 但 却 不 会 提示 任何 错误 。 





>>> Seasons._replace(Spring =2) 
Seasons(Spring=2，Summter=1，Autumn=2，Winter=3) #Spring 


和 Autumn 
的 值 相等 ， 都 为 2 





:支持 无 意义 的 操作 。 





>>> Seasons.Summer+Seasons.Autumn == Seasons.Winter 
True #Seasons.Summer+Seasons.Autumn 
相 加 无 任何 实际 意义 





实际 上 Python2.7 以 后 的 版 本 还 有 另外 一 种 蔡 代 选择 一 一 使 用 第 三 方 
模块 fufl.enum， 它 包含 两 种 枚 举 类 : 一 种 是 Enum， 只 要 保证 枚 举 值 唯 
一 即 可 ， 对 值 的 类 型 没 限 制 ， 还 有 一 种 是 mmtEnum， 其 枚 举 值 为 int 型 。 





>>> from flufl.enum import Enum 
>>> class Seasons(Enum): # 
继承 自 Enum 
Spring ="Spring" 
Summer = 2 
Autumn = 3 
Winter = 4 
>>> Seasons = Enum('Seasons', 'Spring Sumter Autumn Winter') 





flufl.enum 提 供 了 _members 属性， 可 以 对 枚 举 名称 进 行 迭 代 。 





>>> for member in Seasons. members_ : 
print member 


Spring 
Summer 
Autumn 
Winter 





可 以 直接 使 用 value 属 性 获取 枚 举 元 系 的 值 ， 如 : 





>>> print Seasons.Summer.value 





flufl.enum 不 支持 枚 举 元 素 的 比较 。 





>>> Seasons.Summer <Seasons.Autumn #flufl.enum 
不 支持 无 意义 的 操作 
Traceback (most recent call last): 
raise NotIimplementedError 
NotImplementedError 





更 多 关于 flufl.enum 的 使 用 可 以 参考 网 页 
http://Pythonhosted.org/flufl.enum/docs/using.html 的 内 容 。 


值得 一 提 的 是 ，Python3.4 中 根据 PEP435 的 建议 终于 加 入 了 枚 举 
Enum， 其 实现 主要 参考 实现 flufl.enum， 但 两 者 之 间 还 是 存在 一 些 差 
别 ， 如 flufl.enum 人 允许 枚 举 继承 ， 而 Enum 仪 在 父 类 没有 任何 枚 举 成 员 的 
时 候 才 允许 继承 等 ， 读 者 可 以 仔细 阅读 PEP435 了 解 更 多 详情 。 另 外 ， 
如 果 要 在 Python3.4 之 前 的 版 本 中 使 用 枚 举 Enum， 可 以 安装 Enum 的 癌 后 
兼容 包 enum34， 下 载 地 址 为 https:/pypi.Python.org/pypi/enum34。 





建议 12: 不 推荐 使 用 type 来 进行 类 型 检查 


作为 动态 性 的 强 类 型 脚本 语言 ，Python 中 的 变量 在 定义 的 时 候 并 不 
会 指明 具体 类 型 ，Python 解 释 器 会 在 运行 时 自动 进行 类 型 检查 并 根据 需 
要 进行 隐 式 类 型 转换 。 按 照 Python 的 理念 ， 为 了 充分 利用 其 动态 性 的 特 
征 是 不 推荐 进行 类 型 检查 的 。 如 下 面 的 函数 add0， 在 无 需 对 参数 进行 任 
何 约束 的 情况 下 便 可 以 轻松 地 实现 字符 串 的 连接 、 数 字 的 加 法 、 列 表 的 
合并 等 多 种 功能 ， 甚 至 处 理 复 数 都 非常 灵活 。 解 释 器 能 够 根据 变量 类 型 
的 不 同调 用 合适 的 内 部 方法 进行 处 理 ， 而 当 a、b 类 型 不 同 而 两 者 之 间 又 
不 能 进行 隐 式 类 型 转换 时 便 抛 出 TypeError 异 凶 。 











def add(a, b): 

n b 
print add(1,2j) 
中 复数 相 加 
print add('a 
@@ 字 符 串 连 接 
print add(1,2) 
加 整数 


1 1'b') 


print add(1.0,2.3) 
@ 浮 点 数 处 理 








print add([1,2], [2,3]) 

回 处 理 列表 
rint add(1,'a') 
人 @ 不 同类 型 
-人 

输出 如 下 : 
(12 
ab 
3 
3.3 


Traceback (most recent call last): 
ile ' A 9, in <module. 
re al 下 
File "tests.py", line 2, in add 
t a+b 
t p 


orted operand type(s) for +: 'int' and "Str' 





不 刻意 进行 类 型 检查 ， 而 是 在 出 错 的 情况 下 通过 抛 出 异常 来 进行 处 
理 ， 这 是 较为 常见 的 方式 。 但 实际 应 用 中 为 了 提高 程序 的 健壮 性 ， 仍 然 
本 

用 type()。 


内 建 函 数 type(object) 用 于 返回 当前 对 象 的 类 型 ， 如 type(1) 返 回 <type 








int>。 因 此 可 以 通过 与 Python 目 带 模块 types 中 所 定义 的 名 称 进 行 比较 ， 
根据 其 返回 值 确定 变量 类 型 是 否 符 合 要 求 。 例 如 判断 一 个 变量 a 是 不 是 
list 类 型 可 以 使 用 以 下 代码 : 














if type(a) is types.ListType: 





所 有 基本 类 型 对 应 的 名 称 都 可 以 在 types 模 块 中 找到 ， 如 
types.BooleanType、 types.IntType、 types.StringType、 types.DictType 
等 。 然 而 使 用 type0 〇 函数 并 不 是 就 意味 厦 可 以 蜗 枕 无 忧 了 ， 主 张 “不 推荐 
使 用 type 来 进行 变量 类 型 检查 ”是 有 一 定 的 缘由 的 。 来 看 儿 个 例子 。 


示例 一 : 下 例 中 用 户 类 UserInt 继 承 int 类 实现 定制 化 ， 它 不 支持 操作 
符 +=。 具 体 代 码 如 下 : 

















import types 

Class UserInt(int) : #int 
为 UserInt 

的 基 


def _ init__(self, val=0) : 
Self. val = int(val) 
def _add_(self, val) : # 
实现 整数 的 加 法 
if isinstance(val,UserInt): 
return UserInt(self. val + val._val) 
return self. val + val 
def _ iadd (self, val) : 
QUuserInt 
不 支持 += 
操作 
raise NotImplementedError(" not support operation") 
def _str__(self) 
return str (Self, _val) 
def _repr_ (self) 
return tod ey %self._val 
n = UserInt() 
print n 
m = UserInt(2) 
print m 
print n+m 
print Bt) is types.IntType 


回 使 
进行 类 型 有 























程序 输出 如 下 : 





N N 吕 


False 





上 例 标注 所 处 输出 False， 这 说 明 type0 函 数 认 为 n 并 不 是 int 类 型 ， 但 
UserInt 继 承 目 int， 显 然 这 种 判断 不 合理 。 由 此 可 见 基于 内 建 类 型 扩展 的 
用 户 自 定义 类 型 ，type 函 数 并 不 能 准确 返回 结果 。 


示例 二 : 在 古典 类 中 ， 所 有 类 的 实例 的 type 值 都 相等 。 








lass A: 
p 
>>> a = A() 
class B: 
p 
>>> b = B() 
type(a) == type(b) # 


>>> 
判断 两 者 类 型 是 否 相等 
True 





在 古典 类 中 ， 任 意 类 的 实例 的 type0 返 回 结果 都 是 <type 'instance'>。 
这 种 情况 下 使 用 type0 函 数 来 确定 两 个 变量 类 型 是 人 否 相 同 显然 结果 会 与 
我 们 所 理解 的 大 相 径 性 。 


因此 对 于 内 建 的 基本 类 型 来 襄 ， 也 许 使 用 type() 进 行 类 型 检查 问题 
不 大 ， 但 在 某 些 特殊 场合 type0) 方 法 并 不 可 靠 。 那 么 究 莞 应 怎样 来 约束 
用 户 的 输入 类 型 从 而 使 之 与 我 们 期 望 的 类 型 一 致 呢 ? 答案 是 : 如 果 类 型 
有 对 应 的 工厂 函数 ， 可 以 使 用 工厂 函数 对 类 型 做 相应 转换 ， 如 
list(listing)、str(name) 等 ， 否 则 可 以 使 用 isinstance(O) 函 数 来 检测 ， 其 原型 
如 下 : 











isinstance(object, classinfo) 











其 中 ，classinfo 可 以 为 直接 或 间接 类 名 、 基 本 类 型 名 称 或 者 由 它们 
组 成 的 元 组 ， 该 函数 在 classinfo 参 数 错误 的 情况 下 会 殷 出 TypeError 异 
常 。 


isinstance 基 本 用 法 举例 如 下 : 





>>> isinstance(2,float) 
False 
>>> isinstance("a", (str,unicode)) 


Trus 

>>> isinstance((2,3),(str,1ist,tuple)) 
@ 支 持 多 种 类 型 列表 

True 





此 示例 一 中 可 以 将 print type(n) is types.IntType 改 为 print 
isinstance(n,int)， 以 获取 正确 的 结果 。 


建议 13: 尽量 转换 为 浮 点 类 型 后 再 做 除法 


GPA“〈 平 均 成 绩 绩 点 ) 在 出 国 留 学 或 者 奖学金 申请 中 都 占有 重要 的 
地 位 。GPA 算 法 有 多 种 形式 ， 其 中 标准 计算 方法 是 将 大 学 成 绩 乘 以 读 程 
学 分 并 求 和 再 乘 以 4， 再 除 以 总 学 分 与 100 之 积 ， 一般 精确 到 小 数 点 后 两 
位 。 假 如 学 生 A 的 各 门 读 程 成 绩 如 下 : 


A 课程 4 学 分 ， 成 绩 96 (等 级 A， 绩 点 4) ; B 课 程 3 学 分 ， 成 绩 
85 (等 级 B， 绩 点 3) 


C 课 程 5 学 分 ， 成 绩 98 (等 级 A， 绩 点 4) ; DD 课程 2 学 分 ， 成 绩 
70〈 等 级 C， 绩 点 2) 


那么 该 学 生 的 GPA 是 多 少 呢 ? 很 容易 的 算术 问题 对 吧 ， 小 学 生 都 
会 ! 那么 你 算出 来 的 结果 是 多 少 ? Python 计算 出 的 结果 又 是 多 少 呢 ? 

















>>> print 
3 








上 面 的 结果 跟 你 计算 出 的 答案 一 致 吗 ? 显然 是 否定 的 ， 你 的 计算 结 
果 为 3.62571428571， 即 使 四 舍 五 入 保留 小 数 点 后 两 位 也 应 该 是 3.63。 如 
果 有 所 大 学 规定 的 最 低 GPA 是 3.5 的 话 ， 用 Python 作 为 GPA 计 算 工 具 的 话 
可 就 实 实在 在 会 误 人 前 程 了 。 问 题 出 现在 哪里 昵 ? 这 要 回 到 Python 设计 
之 初 。 


Python 在 最 初 的 设计 过 程 中 借鉴 了 C 语 言 的 一 些 规 则 ， 比 如 选择 C 的 
long 类 型 作为 Python 的 整数 类 型 ，double 作 为 浮 点 类 型 等 。 同 时 标准 的 
算术 运算 ， 包 括 除 法 ， 返 回 值 总 是 和 操作 数 类 型 相同 。 作 为 静态 类 型 语 
言 ，C 语 言 中 这 一 规则 问题 不 大 ， 因 为 变量 都 会 预 抑 申明 类 型 ， 当 类 型 
不 符 的 时 候 ， 编 译 器 也 会 尽 可 能 进行 强制 类 型 转换 ， 人 否则 编译 会 报错 。 
但 Python 作为 一 门 高 级 动态 语言 并 没有 类 型 申明 这 一 说 ， 因 此 在 上 面 的 
例子 中 你 不 能 提前 申明 返回 的 计算 结果 为 浮 点 数 ， 当 除法 运算 中 两 个 操 
作 数 都 为 整数 的 时 候 ， 其 返回 值 也 为 整数 ， 运 算 结果 将 直接 截断 ， 从 而 
在 实际 应 用 中 造成 潜在 的 质 的 误 锚 。 








Python 中 除了 除法 运算 之 外 ， 整 数 和 浮 点 数 的 其 他 操作 行为 还 是 一 
致 的 ， 因 此 这 容易 让 人 产生 一 种 误解 ， 数 值 的 计算 与 具体 操作 数 的 类 型 
(整数 还 是 浮 点 数 ) 无 关 ， 但 事实 上 对 于 整数 除法 这 是 编程 过 程 中 潜在 
的 一 个 危险 ， 因 为 当 你 编写 一 个 函数 时 ， 即 使 你 希望 调用 者 传 入 的 是 浮 
扩 类 型 ， 但 如 果 不 在 阔 数 入 口 进行 类 型 检查 或 者 转换 ， 束 无 法 阻止 函数 
调用 者 传递 整数 参数 ， 而 往往 这 种 类 型 的 错误 还 不 容易 发 觉 。 因 此 推荐 
人 
运算 。 











>>> gpa = float(((4*96+3*85+5*98+2*70)*4))/float(((4+3+5+2)*100)) 


>>> print gpa 
3.62571428571 


当然 随 着 Python 语 言 的 发 展 ， 对 整数 除法 问题 也 做 了 一 定 的 修正 ， 
在 Python3 中 这 个 问题 已 经 不 存在 了 。Python3 之 前 的 版 本 可 以 通过 from 
_ future import division 机 制 使 整数 除法 不 再 截断 ， 这 样 即使 不 进行 浮 
点 类 型 转换 ， 输 出 结果 也 是 正确 的 (请 读者 自行 试验 ) 。 


最 后 ， 还 需要 说 明 一 点 ， 上 例 中 是 使 用 浮 点 数 才 精确 ， 但 下 列 场景 
又 变 成 了 浮 点 数 可 能 是 不 准确 的 。 先 来 看 以 下 代码 : 





上 面 的 代码 输出 会 是 多 少 ? 正确 的 答案 是 这 段 代 码 会 导致 无 限 循 
环 。 为 什么 呢 ? 因为 在 计算 机 的 世界 里 ， 浮 点 数 的 存储 规则 雇 定 了 不 是 
所 有 的 浮 点 数 都 能 准确 表示 ， 有 些 是 不 准确 的 ， 只 是 无 限 接 近 。 如 0.1 
转换 为 二 进 制 表示 形式 则 为 0.000110011001...... 后 面 1001 无 限 循环 。 在 
内 存 中 根据 浮 点 数位 数 规定 ， 多 余部 分 直接 截断 ， 因 此 当 循 环 到 第 5 次 
的 时 候 i 的 实际 值 为 1.5000000000000004 (读者 可 以 逐步 调试 进行 验 
证 ) ， 则 条 件 表达 式 i !=1.5 显 然 为 Truee， 循 环 陷入 无 终止 状态 。 对 于 浮 
点 数 的 处 理 ， 要 记 住 其 运算 结果 可 能 并 不 是 完全 准确 的 。 如 果 计 算 对 精 
度 要 求 较 高 ， 可 以 使 用 Decimal 来 进行 处 理 或 者 将 浮 点 数 尽量 扩大 为 整 
数 ， 计 算 完 毕 之 后 再 转换 回去 。 而 对 于 在 while 中 使 用 ii=1.5 这 种 条 件 表 
达 式 更 是 要 避免 的 ， 浮 点 数 的 比较 同样 最 好 能 够 指明 精度 。 





建议 14: 警惕 eval0 的 安全 漏洞 


如 有 果 你 了 解 JavaScript 或 者 PHP 等 ， 那 么 你 一 定 对 evalO0 所 有 了 解 。 
如 果 你 并 没有 接触 过 也 没关系 ，eval0 函 数 的 使 用 非常 简单 。 





>>> eval("1+1==2") # 

进行 判断 

True 

>> 
al{" TAB # 

区 

>>> eval("1+2") # 

数字 相 加 

3 








Python 中 eval0 函 数 将 字符 串 str 当 成 有 效 的 表达 式 来 求 值 并 返回 计算 
结果 。 其 函数 声明 如 下 : 





eval(expression[, globals[, locals]]) 





其 中 ， 参 数 globals 为 字典 形式 ，locals 为 任何 映射 对 象 ， 它 们 分 别 
表示 全 局 和 局 部 命名 空间 ， 如 果 传 入 globals 参 数 的 字典 中 缺少 

_ builtins “的 时 候 ， 当 前 的 全 局 命名 空间 将 作为 globals 参 数 输入 并 且 在 
表达 式 计 算 之 前 被 解析 。locals 参 数 默认 与 globals 相 同 ， 如 果 两 者 都 省 
略 的 话 ， 表 达 式 将 在 eval0) 调 用 的 环境 中 执行 。 


“eval is evil”(eval 是 收 恶 的 ) ， 这 是 一 句 广为人知 的 对 eval 的 评 
价 ， 它 主要 针对 的 是 eval0 的 安全 性 。 那 么 eval 存 在 什么 样 的 安全 漏洞 
呢 ? 来 看 一 个 简单 的 例子 : 











import Sys 
from math i 
def Ex catebo i ng): 

try: 
print 'Your answer is',eval(user_func) # 
i 入 的 值 
except NameError: 
print "The expres you enter is not valid" 

pr nt "HI I am EX cit bo ese input your experssion or enter e to end' 

inputstr =" 
while 1: 


nt 和 enter a number or operation. Enter c to complete. :' 
inputstr = raw_input() 


if inputstr == Str('e') : # 


遇 到 输入 为 e 
的 时 候 退 出 
sys.exit() 
elif repr(inputstr) != repr(''): 
ExpCalcBot (inputstr) 
inputstr = "" 





上 面 这 段 代 码 的 主要 功能 是 : 根据 用 户 的 输入 ， 计 算 Python 表 达 式 
的 值 。 它 有 什么 问题 呢 ? 如 果 用 户 都 是 素质 展 好 ， 没有 不 民 目的 的 话 ， 
那么 这 段 程序 也 许可 以 满足 茎 本 需 | nS 
1.91294525073。 但 如 果 它 是 一 个 Web 页 面 的 后 台 调 用 (当然 ， 你 :需要 做 
一 定 的 修改 ) ， 由 于 网 络 环境 下 运行 它 的 用 户 并 非 都 是 可 信任 的 ， 问 题 
束 出 现 了 。 因 为 eval0 可 以 将 任何 字符 串 当 做 表达 式 求 值 ， 这 也 就 意味 
者 有 空子 可 钻 。 上 面 的 例子 中 假设 用 户 输入 
import ("os").system("dir")， 会 有 什么 样 的 输出 呢 ?” 你 会 惊讶 地 发 现 
它 会 显示 当前 目录 下 的 所 有 文件 列表 ， 输 出 如 下 : 











C:\test>python tests.py 

Hi,I am ExpCalcBot. please input your experssion or enter e to end 
please enter a number or operation. Enter c to complete. : 
import_ ("os").system("dir") 

Your answer is 

驱动 器 C 

中 的 卷 是 SYSTEM 

卷 的 序列 号 是 A0E0-1A46 

C:\test 

的 目录 





2013/07/31 12:28 <DIR> 
2013/07/31 12:28 <DIR> 


2012/07/24 08:11 859,919 2012-07-24-010.jpg 
2012/07/24 08:11 1,037,015 2012-07-24-011.jpg 
2012/07/24 08:19 1,242,667 2012-07-24-012.jpg 
2013/07/31 12:26 9 test.txt 
2013/07/31 12:27 503 tests.py 

5 
个 文件 3,140,104 
字 节 





个 目录 422, 254,792, 592 
可 用 字 节 














0 
Please enter a number or operation. Enter c to complete. : 





于 是 顿时 ， 有 人 的 “ 坏 心眼 ”来 了 ， 他 输入 了 如 下 字符 串 ， 可 莫 的 事 
情 友 生 了 ， 当 前 目录 下 的 所 有 文件 都 被 删除 了 ， 包 括 testpy， 而 这 一 切 
没有 任何 提示 ， 悄 无 声 奶 。 








一 import 二 ("os").system(' 本 * OOT) 
! ! ! 不 要 轻易 在 你 的 计算 机 上 党 


Your answer is 











试想 ， 在 网 络 环境 下 这 是 不 是 很 危险 ? 也 许 你 会 辩护 ， 那 是 因为 你 


没有 在 globals 参 数 中 禁止 全 局 命名 空间 的 访问 。 好 ， 我 们 按照 你 说 的 来 
试验 一 下 : 将 函数 ExpCalcBot 修 改 一 下 ， 其 中 math_fun_list 限 定 为 几 个 
常用 的 数学 函数 。 修 改 后 的 函数 如 下 : 





def ExpCalcBot(string): 


Mmath Tun list = [eacos', gsin', atan’;y "vog'; "eog': "logi9, "pl, 
OOow ;| :Sn sort!r; :tan’] 
math_fun_dict = dict([ (k, globals().get(k)) for k in math_fun_list ]) 
# 
形成 可 以 访问 的 函数 的 字典 
rint "Your answer is',eval(string,{" builtins ": None},math_fun_dict) 
except NameError: 
print "The expression you enter is not valid" 








再 次 运行 程序 〈 请 读者 自行 试验 ) 你 会 惊喜 地 发 现 上 面 的 命令 被 看 
着 无 效 表 达 式 ， 你 的 辩护 是 对 的 ， 这 确实 是 我 们 想 要 的 。 很 好 ， 安 全 问 
题 不 再 是 个 问题 ! 但 仔细 想 想 真是 这 样 的 吗 ? 试 试 输入 以 下 字符 : 





[rc for c in (). class .bases_ [9]. subclasses_ () if c._ name_ _ =='Quitter '][0](0)() 








# ()._class” . bases [0].，_ subclasses 0) 用 来 显示 object 类 的 所 有 
子 类 。 类 Quitter 与 "quit" 功 能 绑 定 ， 因 此 上 面 的 输入 会 直接 导致 程序 退 
出 。 


注 : 你 可 以 在 Python 的 安装 目录 下 的 Lib\site.py 中 找到 其 类 的 定义 。 
读者 也 可 以 自行 在 Python 解 释 器 中 输入 
print()._class”. bases [0]._subclasses_() 看 看 输出 结果 是 什么 。 


因此 对 于 有 经 验 的 侵入 者 来 说 ， 他 可 能 会 有 一 系列 强大 的 手段 ， 使 
得 eval 可 以 解释 和 调用 这 些 方法 ， 从 而 融 来 更 大 的 破坏 。 此 外 ，eval0 函 
数 也 给 程序 的 调试 市 来 一 定 困难 ， 要 查看 eval() 里 面 表达 式 具 体 的 执行 
过 程 很 难 。 因 此 在 实际 应 用 过 程 中 如 果 使 用 对 象 不 是 信任 源 ， 应 该 尽量 
避免 使 用 eval， 在 需要 使 用 eval 的 地 方 可 用 安全 性 更 好 的 ast.literal_eval 蔡 
代 。literal_eval 疯 数 具 体 详情 可 以 参考 文档 
http://docs.python.org/2/library/ast.html#ast.literal_eval。 上 面 的 例子 请 读 
者 使 用 literal_eval 目 行 试验 ， 你 会 体会 得 更 加 深刻 。 


建议 15: 使 用 enumerate0 获 取 序 列 友 代 的 索引 和 值 

基本 上 所 有 的 项 目 中 都 存在 对 序列 进行 迭代 并 获取 序列 中 的 元 素 进 
行 处 理 的 场景 。 这 是 一 个 非常 普通 而 且 简 单 的 需求 ， 相 信 很 多 人 一 口气 
能 写 出 N 种 实现 方法 。 举 例如 下 。 


方法 一 “在 每 次 循环 中 对 索引 变量 进行 目 增 。 














index+= 





方法 二 ”使 用 range() 和 len() 方 法 结合 。 





1i= ['a', 'b', 'c', 'd', 'e'] 
for i in range(len(1i)): 
print "index:",i,"element:",1i[i] 





方法 三 ”使 用 while 循 环 ， 用 len0 获 取 循 环 次 数 。 





index+=1 





方法 四 ”使 用 zip0 方 法 。 





= ['a', 'b', 'c', 'd', 'e'] 
for i, ee in zip(range(len(1i)), 1i): 
print "index:",i,"element:",e 





方法 五 ”使 用 enumerate() 获 取 序列 迭代 的 索引 和 值 。 








这 里 推荐 的 是 使 用 方法 五 ， 因 为 它 代 码 清晰 简洁 ， 可 读 性 最 好 。 函 
数 enumerate() 是 在 Python2.3 中 引入 的 ， 主 要 是 为 了 解决 在 循环 中 获取 索 
引 以 及 对 应 值 的 问题 。 它 共有 一 定 的 惰性 〈lazy) ， 每 次 仅 在 需要 的 时 
候 才 会 产生 一 个 (index,item) 对 。 其 函数 签名 如 下 : 








enumerate(sequence, start=0) 





其 中 ，sequence 可 以 为 序列 ， 如 ]ist、set 等 ， 也 可 以 为 一 个 iterato 或 
者 任何 可 以 迄 代 的 对 象 ， 默 认 的 start 为 0， 函 数 返 回 本 质 上 为 一 个 迭代 
上 器， 可 以 使 用 next() 方 法 获取 下 一 个 迭代 元 素 ， 如 下 所 示 : 





>>> 1i = ['a', 'b', 'c', 'd', 'e'] 
>>> print erate(lly 
<enumerate object at 0x00373E18> 
= en ate(Ll} 
>>> e.next() 
(0, 'a') 
>>> e.next() 

hy 


(1, 'b') 





enumerate() 函 数 的 内 部 实现 非常 简单 ，enumerate(sequence,start=0) 
实际 相当 于 如 下 代码 : 





def enumerate(sequence, start=0): 
n= star 
for elem in sequence: 
yield n, elem 





因此 利用 这 个 特性 用 户 还 可 以 实现 自己 的 enumerate0 函 数 。 比 如 ， 
myenumerate() 以 有 反 序 的 方式 获取 序列 的 索引 和 值 。 











def myenumerate(sequence): 


n= -1 
for elem in reversed(sequence): 
yield len(sequence)+n, elem 
n =n 
1i = ['a', 'b', 'c', 'd', 'e'] 
for i,e in myenumerate(1i): 
print "index:",i,"element:",e 





程序 输出 如 下 : 





index: 4 element: 
index: 3 element: 
index: 2 element: 
index: 1 element: 
index: 9 element : 


pTNOon 





需要 提醒 的 是 ， 对 于 字典 的 迭代 循环 ，enumerate() 函 数 并 不 适合 ， 
里 然 在 使 用 上 并 不 会 提示 错误 ， 但 输出 的 结果 与 期 望 的 大 相 径 姓 ， 这 是 
因为 字典 默认 被 转换 成 了 序列 进行 处 理 。 





personinfo = {'name': 'Jon', 'age': '20','hobby':'football'} 
for k, v in enumerate(personinfo): 
print k,v 





要 获取 迭代 过 程 中 字典 的 key 和 value， 应 该 使 用 如 下 iteritems() 方 
法 : 





for k,v in personinfo.iteritems(): 
j 1 
V 
’ 


print k, 





建议 16: 分 清 == 与 is 的 适用 场景 


在 判断 两 个 字符 串 是 否 相 等 的 时 候 ， 混 用 is 和 == 是 很 多 初学 者 经 常 
犯 的 错误 ， 造 成 的 结果 是 程序 在 不 同情 况 下 表现 不 一 。 先 来 看 一 个 例 
是 











>>> a = "Hi" 

ws bb HL 

>>> a is b 

True 

>>> a == #is 

和 == 

结果 一 样 

True 

>>> al = "I am using long string for testing" 
>>> bl = "I am using long string for testing" 
>>> al is b1 #is 

的 结果 为 False 

False 

>>> al == bi 

的 结果 为 True 

。 两 者 并 不 一 样 

True 

>>> stri "string" 

>> str2 = "",join(['s', tyr, 'i','n','g']) 
>> print str2 

tring 

>» Stri 4s str2 
False 


>> stri == str2 #== 


和 is 
的 结果 在 这 种 情况 下 也 不 一 样 
True 





造成 这 种 奇怪 现象 的 原因 是 什么 呢 ? 为 什么 在 有 些 情 况 下 is 和 == 输 
出 相同 而 在 有 些 情 况 下 又 不 相同 呢 ? 我 们 来 分 析 一 下 : 首先 通过 id0 函 
数 来 看 看 这 些 变量 在 内 存 中 具体 的 存储 空间 ， 为 了 方便 讨论 问题 ， 用 表 
2-1 来 表示 上 例 具 体 结果 。 











表 2-1 不 同 变 量 组 id() 以 及 is 和 == 的 求 值 结 


a 14085224 
"ll - Tre re 
i 14085224 
91 = "Tam using long String for testing'" 2) 13003368 
, ! False True 
b1 = "Tam using long string for testing" (2 


str] = "string" @) oe 
False True 
str2 = "join('s,t ri ng"]) 全 M0565 


从 表格 中 可 以 清晰 地 看 到 ，is 和 == 在 验证 两 个 字符 串 是 否 相 等 的 时 
候 表 现 确实 不 一 致 ， 显 然 混用 或 者 将 它们 等 同 起 来 是 存在 风险 的 。 那 么 
字符 串 的 比较 到 底 是 用 is 还 是 用 == 呢 ? 先 来 看 看 Python 官方 文档 中 对 这 
两 种 操作 的 如 下 表 2-2 所 示 。 


表 2-2 两 种 操作 的 意义 





操作 符 意 义 
1 Object 1dentity 
== equal 








is 表 示 的 是 对 象 标示 符 (object _ identity) ， 而 == 表 示 的 意思 是 相等 
(equal) ， 显 然 两 者 不 是 一 个 东西 。 实 际 上 ， 造 成 上 面 输出 结果 不 一 臻 
的 根本 原因 在 于 : is 的 作用 是 用 来 检查 对 象 的 标示 符 是 否 一 致 的 ， 也 就 
是 比较 两 个 对 象 在 内 存 中 是 否 拥 有 同一 块 内 存 空间 ， 它 并 不 适合 用 来 判 
斯 两 个 字符 串 是 否 相等 。X is Jy 仪 当 x 和 y 是 同一 个 对 象 的 时 候 才 返回 
True，x is y 基本 相当 于 id(x) == id(y)。 而 == 才 是 用 来 检验 两 个 对 象 的 值 
是 否 相 等 的 ， 它 实际 调用 内 部 _eq_0 方 法 ， 因 此 a 二 二 b 相 当 于 
aeq_(b)， 所 以 == 操 作 符 是 可 以 被 重 载 的 ， 而 is 不 能 被 重 载 。 一 般 情 
况 下 ， 如 果 x is y 为 True 的 话 X == y 的 值 也 为 Trne (特殊 情况 除外 ， 如 
NaN，a = float(NaN'"); ais a 为 True，a==a 为 false) ， 反 之 则 不 然 。 


弄 清楚 了 is 和 == 之 间 的 区 别 ， 再 来 看 上 述 表 格 中 的 输出 也 就 不 难 理 














解 了 。 但 如 果 再 细心 一 点 也 许 会 发 现 第 1 组 〈 标 注 四 ) 中 a 和 b 的 id 值 一 
样 ， 也 就 是 说 它们 在 内 存 中 是 同一 个 对 象 ， 而 第 二 组 〈 标 注 包 ) 中 a1 和 
b1 的 id 值 却 不 一 样 。 这 又 是 为 什么 昵 ? 这 是 Python 中 的 string 

interning 〈 字 符 串 驻 留 ) 机制 所 决定 的 ， 对 于 较 小 的 字符 串 ， 为 了 提高 
系统 性 能 会 保留 其 值 的 一 个 副本 ， 当 创建 新 的 字符 串 的 时 候 直 接 指 癌 该 
副本 即 可 。 因 此 标注 四 中 “Hi 在 系统 内 存 中 实际 上 只 有 一 个 副本 ， 所 以 
a 和 hb 的 id 值 是 一 样 的 ， 而 标注 凶 中 a1 和 b1 是 长 字符 串 ， 并 不 会 驻 留 ， 
Python 内 存 中 各 自 创 建 了 对 象 来 表示 al 和 b1， 这 两 个 对 象 拥有 相同 的 内 
容 但 对 象 标 示 符 却 不 相同 ， 所 以 == 的 值 为 True 而 入 的 值 为 False。 


O,: 


判断 两 个 对 象 相等 应 该 使 用 == 而 不 是 is。 








建议 17: 考虑 兼容 性 ， 尽 可 能 使 用 Unicode 


Python 内 建 的 字符 串 有 两 种 类 型 : str 和 Unicode， 它 们 拥有 共同 的 
祖先 basestring。 其 中 Unicode 是 Python2.0 中 引入 的 一 种 新 的 数据 类 型 ， 
所 有 的 Unicode 字 符 串 都 是 Unicode 类 型 的 实例 。 创 建 一 个 Unicode 字 符 相 
对 简单 。 





strUnicode 
unicode \u5b57\u7b26\u4e32" 
int strUnicode 
unicode 
符 串 
>>> type(SstrUnicode) 
ee 1 


>>> type(strUnicode). bases _ 
(<type 'basestring'>,) 





Python 中 为 什么 需要 加 入 对 Unicode 的 支持 呢 ? 我 们 先 来 了 解 一 
Unicode 相 关 的 背景 知识 。 


在 Unicode 之 前 ， 最 早 的 ASCII 编 码 用 一 个 字 节 (8bit， 最 高 位 为 0) 
只 能 表示 128 个 字符 ， 如 英文 大 小 写字 符 、 数 字 以 及 其 他 符号 等 。 但 世 
界 上 显然 不 只 有 一 种 语言 ， 不 同 种 语言 所 包含 的 字符 数量 也 不 相同 ， 对 
于 很 多 语言 来 说 128 个 字符 数 是 远 远 不 够 的 ， 即 使 对 ASCII 进 行 扩展 ， 
256 个 字符 也 不 能 满足 要 求 。 于 是 出 现 了 各 种 不 同 的 字符 编码 系统 ， 如 
我 国 表示 汉字 编码 的 GBK。 但 这 又 引入 了 一 个 新 的 问题 :不同 编码 系统 
之 加 存在 冲突 。 在 两 种 不 同 的 编码 系统 中 ， 相 同 的 编码 可 能 代表 不 同 的 
意义 或 者 不 同 的 编码 代表 相同 的 字符 ， 从 而 导致 不 同 平台 、 不 同 语言 之 
间 的 文本 无 法 很 好 地 进行 转换 。 比 如 ,， “我 * 字 在 GB2312 中 表示 为 
0x4650， 而 繁体 中 文 Big5 中 的 编码 为 0XA7DA， 而 0XA7DA 在 GB2312 中 
却 表 示 “ 和 有?”， 乱 码 由 此 产生 。 要 解决 这 个 问题 ， 必 须 为 不 同 的 文字 分 配 
统一 编码 ，Unicode (Universal Multiple-Octet Coded Character Set) 由 此 
产生 ， 它 也 被 称 作 万 国 码 ，Unicode 为 每 种 语言 设置 了 唯一 的 二 进 制 编 
码 表示 方式 ， 提 供 从 数字 代码 到 不 同 语言 字符 集 之 间 的 映射 ， 从 而 可 以 
满足 跨 平 台 、 跨 语言 之 间 的 文本 人 处理 要 求 。 


Unicode 编 码 系统 可 以 分 为 编码 方式 和 实现 方式 两 个 层次 。 在 编码 
方式 上 ， 分 为 UCS-2 和 UCS-4 两 种 方式 ，UCS-2 用 两 个 字 节 编码 ，UCS-4 




















用 4 个 字 节 编码 。 目 前 实际 应 用 的 统一 码 版 本 对 应 于 UCS-2， 使 用 16 位 
的 编码 空间 。 一 个 字符 的 Unicode 编 码 是 确定 的 ， 但 是 在 实际 传输 过 程 
中 ， 由 于 系统 平台 的 不 同 以 及 出 于 节省 空间 的 目的 ， 实 现 方式 有 所 天 
异 。Unicode 的 实现 方式 称 为 Unicode 转 换 格 式 (Unicode Transformation 
Format) ， 简 称 为 UTF， 包 括 UTF-7、UTF-16、UTF-32，UTF-8 等 ， 其 
中 较为 常见 的 为 UTF-8。UTF-8 的 特点 是 对 不 同 范 围 的 字符 使 用 不 同 长 
度 的 编码 ， 其 中 0x00 一 0x7F 的 字符 的 UTEF-8 编 码 与 ASCII 编 码 完 全 相 
同 。UTF-8 编 码 的 最 大 长 度 是 4 个 字 节 ， 从 Unicode 到 UTF-8 的 编码 方式 
如 表 2-3 所 示 。 








表 2-3 ”Unicode 到 UTF-8 的 编码 方式 


Unicode 编码 (十 六 进 制 ) UTF-8 字 书 流 ( 二进制 ) 
000000 ~ 00007F (XXXXXXX 
000080 ~ 0007FF ]10XXXXX 10XXXXXX 
000800 ~ OOFFFF ll10xxxx 10XXXXXX ]0XXXXXX 
010000 ~ 10FFFF ]]110XXX 10XXXXXX 10XXXXXX 10XXXXXX 


Unicode 经 过 几 十 年 的 发 展 ， 逐 渐 成 为 业界 标准 ， 许 多 相关 技术 都 
提供 Unicode 支 持 ， 如 XML、Java、LDAP、CORBA 3.0 等 ，Python 也 不 
例外 。 更 多 Unicode 的 知识 读者 可 以 查看 http:/www.unicode.org/。 


在 了 解 完 Unicode 的 背景 知识 之 后 再 来 看 看 Python 中 人 处理 中 文学 符 
经 常会 遇见 的 以 下 几 个 问题 : 


示例 一 ” 读 出 文件 的 内 容 显 示 为 乱码 。 











filehandle = open("test.txt",'r') 
rint filehandle.read() 
filehandle.close() 








其 中 ， 文 件 testtxt 中 的 内 容 为 python 中 文 测试 >， 文件 以 UTF-8 的 形 
式 保存 。 


运行 程序 结果 如 下 : 





nn 
构 俩 姻 冯 





示例 二 ” 当 Python 源 文件 中 包含 中 文字 符 的 时 候 抛 出 SyntaxError 措 
常 。 


unicodetest.py 文 件 的 内 容 如 下 : 





"python 
中 中 文 油 呈 " 


Prznit S 








上 述 程序 运行 时 报错 如 下 : 





File "unicodetest.py", line 1 
SyntaxError: Non-ASCII character '\xd6' in file unicodetest.py on line 1, but no 
encoding declared; see http://www.python.org/peps/pep-0263.html for details 





示例 三 ”普通 字符 和 Unicode 进 行 字 符 串 连接 的 时 候 抛 出 


UnicodeDecodeError 异 常 。 





# coding=utf-8 





s = 
中 文 测试 "+ u"Chinese Test" 
print s 








Traceback (most recent call last): 
Ee "tests. py", line 2, in <module> 





中 文 测试 + U"Chinese Test" 
UnicodeDecodeError: 'ascii' codec can't decode byte 9xd6 in position 9: ordinal 
not in range(128) 





来 一 一 分 析 上 面 例子 产生 错误 的 原因 以 及 如 何在 不 同 的 编码 和 
Unicode 之 间 进 行 转换 。 


示例 一 分 析 : 读 入 的 文件 test.txt 用 UTF-8 编 码 形式 保存 ， 但 是 
Windows 的 本 地 默认 编码 是 CP936， 在 Windows 系 统 中 它 被 映射 为 GBK 
编码 ， 所 以 当 在 控制 台 上 直接 显示 UTF-8 字 符 的 时 候 ， 这 两 种 编码 并 不 
兼容 ， 以 UTF-8 形 式 表 示 的 编码 在 GBK 编 码 中 被 解释 成 为 其 他 的 符号 ， 
由 此 便 产 生 了 乱码 。 通 过 上 面 的 背景 知识 了 解 到 Unicode 为 不 同 语言 设 
置 了 唯一 的 二 进 制 表示 形式 ， 可 以 轻易 地 解决 不 同 字 符 集 之 间 的 字符 映 
射 问题 ， 因 此 要 解决 示例 一 的 乱码 问题 可 以 使 用 Unicode 作 为 中 间 介 质 
来 完成 转换 。 首 先 需 要 对 读 入 的 字符 用 UTF-8 进 行 解码 ， 然 后 再 用 GBK 
进行 编码 。 修 改 后 的 结果 如 下 : 








filehandle = open("test.txt",'r') 
print (filehandle.read().decode("utf-8")).encode("gbk") 


filehandle.close() 





输出 为 : 





python 
中 文 测 试 





代码 标注 四 处 分 别 使 用 了 decode0 和 encode() 方 法 ， 这 两 个 方法 的 作 
用 分 别 是 对 字符 串 进 行 解码 和 编码 。 其 中 decode() 方 法 将 其 他 编码 对 应 
的 字符 串 解码 成 Unicode， 而 encode() 方 法 将 Unicode 编 码 转 换 为 男 一 种 
编码 ，Unicode 作 为 转换 过 程 中 的 中 间 编 码 。decode() 和 encode() 方 法 的 
函数 形式 如 下 : 





str.decode([ 
编码 参数 [， 
错误 处 理 ] ] ) 
Str.encode( 
编码 参数 [， 
错误 处 理 ] ] ) 





常见 的 编码 参数 如 表 2-4 所 示 。 


表 2-4 常见 编码 参数 


编码 参数 措 六 
sc 7 位 ASCII 码 
atin-1' of 1s0-8859-1' IS0 8859-1, Latin-l 
tt 8 位 可 变 长 度 编码 
ul6 16 位 可 变 长 度 编码 
人 26e UFT-16，little-endian 编码 
16-be UFT-16，big-endian 编码 
‘lcode-escape 5S unicode 文字 wstring 相同 
aw-lhicode-escape, 与 原始 Unicode 文字 ur'string 相同 


错误 处 理 参数 有 以 下 3 种 常用 方式 : 

1) strict': 默认 处 理 方 式 ， 编 码 错误 抛 出 UnicodeError 寞 种。 

2) ignore' 忽 略 不 可 转换 字符 。 

3) replace' 将 不 可 转换 字符 用 ?代替 。 

对 于 A、B 两 种 编码 系统 ， 两 者 之 间 的 相互 转换 示意 图 如 图 2-1 所 


1 .decode (A) 2.encode (B) 
图 2-1 ”编码 转换 示意 图 


标注 QD 处 flehandle.read() 读 出 来 的 字符 串 是 用 UTF-8 表 示 的 ， 也 就 
是 A 表示 为 UTF-8， 使 用 decode() 方 法 解码 得 到 Unicode， 对 应 上 图 箭头 1 
所 示 过 程 : flehandle.read().decode("utf-8")。 然 后 再 使 用 encode 方 法 将 
Unicode 转 换 为 为 GBK 的 表示 形式 ， 如 果 unicodestr= 





filehandle.read().decode("utf-8") 的 话 ， 则 unicodestr.encode("gbk") 表 示 第 
头 2 所 示 过 程 。 所 以 从 A 到 B 对 应 的 代码 为 : 





(filehandle.read().decode("utf-8")).encode("gbk") 





提醒 : 上 面 的 例子 在 某 些 有 些 情况 下 (如 test.txt 是 用 Notepad 软 件 以 
UTF-8 编 码 形式 保存 〉 可 能 还 会 出 现 如 下 异常 : 





print (filehandle.read().decode("utf-8")).encode("gbk") 
nicodeEncodeError: 'gbk' codec can't encode character u'\ufeff' in position 0: 
illegal multibyte sequence 





这 是 因为 有 些 软 件 在 保存 UTF-8 编 码 的 时 候 ， 会 在 文件 最 开始 的 地 
方 插 入 不 可 见 的 字符 BOM (0xEF 0xBB 0xBF， 即 BOM) ， 这 些 不 可 见 
字符 无 法 被 正确 的 解析 ， 而 利用 codecs 模 块 可 以 方便 地 处 理 这 种 问题 。 





import codecs 

content = open("test.txt",'r').read() 
filehandle.close() 

if content[:3] == codecs .BOM_UTF8 :# 
如 果 存 在 BOM 

字符 则 去 掉 

content = content[3:] 

print content.decode("utf-8") 





关于 BOM : 


Unicode 存 储 有 字 节 序 的 问题 ， 例 如 “ 汉 ” 字 的 Unicode 编 码 是 
0X6C49， 如 果 将 6C 写 在 前 面 ， 则 为 big endian， 将 49 写 在 前 面 则 成 
为 little endian。UTF-16 以 两 个 字 市 为 编码 时 元 ， 在 字符 的 传送 过 程 
中 ， 为 了 标明 字 节 的 顺序 ，Unicode 规 范 中 推荐 使 用 BOM (Byte 
Order Mark) : 即 在 UCS 编 码 中 用 一 个 叫做 ZERO WIDTH NO- 
BREAK SPACE 的 字符 ， 它 的 编码 是 FEFF (该 编码 在 UCS 中 不 存在 
对 应 的 字符 ) ，UCS 规 范 建议 在 传输 字 节 流 前 ， 先 传输 字符 ZERO 
WIDTH NO-BREAK SPACE。 这 样 如 果 接 收 者 收 到 FEFF， 融 表明 
这 个 字 节 流 是 Big-Endian 的 ;如 果 收 到 FFFE， 就 表明 这 个 字 贡 流 是 








Little-Endian 的 。 UTF-8 使 用 字 市 来 编码 ， 一 般 不 需要 BOM 来 表明 
字 节 顺序 ， 但 可 以 用 BOM 来 表明 编码 方式 。 字 符 ZERO WIDTH 
NO-BREAK SPACE 的 UTF-8 编 码 是 EF BB BF。 所 以 如 果 接 收 者 收 
到 以 EF BB BF 开头 的 字 节 流 ， 就 知道 这 是 UTF-8 编 码 了 。 


示例 二 分 析 : Python 中 默认 的 编码 是 ASCII 编 码 〈 这 点 可 以 通过 
sys.getdefaultencoding() 来 验证 ) ， 所 以 unicodetest.py 文 件 是 以 ASCII 形 
式 保存 的 ，s 是 包含 中 文字 符 的 普通 字符 串 。 当 调用 print 方 法 输出 的 时 
候 会 隐 式 地 进行 从 ASCII 到 系统 默认 编码 (Windows 上 为 CP936) 的 转 
换 ， 中 文字 符 并 不 是 ASCII 字 符 ， 而 此 时 源 文件 中 又 未 指定 其 
式 ，Python 解 释 器 并 不 知道 如 何 正 确 处 理 这 种 情况 ， 便 会 抛 出 异 
SyntaxError: Non-ASCII character \xd6' in file unicodetest.py on ee 1。 因 
要 避免 这 种 错误 需要 在 源 文 件 中 进行 编码 声明 ， 声 明 可 用 正则 表达 
忆 

















"coding[:=Js*([-\w.]+) 表示。 一 般 来 说 进行 源 文 件 编码 声明 有 以 下 3 
种 方式 : 


一 种 声明 方式 : 











二 种 声明 方式 : 





#!/Uusr/bin/python 
# -*- coding: <encoding 








第 三 种 声明 方式 : 





#!/Uusr/bin/python 
# vim: set fileencoding=<encoding name> 





示例 二 在 源 文件 头 中 加 入 编码 声明 # coding=utf-8 便 可 解决 问题 。 


示例 三 分 析 : 使 用 + 操作 符 来 进行 字符 串 的 连接 时 ，+ 左 边 为 中 文字 
符 串 ， 类 型 为 sr， 右 边 为 Unicode 字 符 串 。 当 两 种 类 型 的 字符 串 连 接 的 
时 候 ，Python 将 左边 的 中 文字 符 串 转换 为 Unicode 再 与 右边 的 Unicode 字 
符 串 做 连接 ， 将 str 转 换 为 Unicode 时 使 用 系统 默认 的 ASCII 编 码 对 字符 串 
进行 解码 ， 但 由 于 “中 文 测试 * 的 ASCII 编 码 为 
\xd6\xd0\xce\xc4\xb2\xe2\xca\xd4， 其 中 “中 * 字 的 编码 \xd6 对 应 的 值 为 
214。 当 编码 值 在 0 一 127 的 时 候 Unicode 和 ASCII 是 兼容 的 ， 转 换 不 会 有 
什么 问题 ， 但 当 其 值 大 于 128 的 时 候 ，ASCII 编 码 便 不 能 正确 处 理 这 种 情 
况 ， 因 而 抛 出 UnicodeDecodeError 异 常 。 解 决 上 面 的 问题 有 以 下 两 种 思 
路 : 


1) 指定 str 转 为 Unicode 时 的 编码 方式 。 











# coding=utf-8 


中 文 测试 ",.decode('gbk') + u"Chinese Test" 





2) 将 Unicode 字 符 串 进行 UTF-8 编 码 。 





六 忆 c 
中 文 测试 "+ u"Chinese Test" ,encode("utf-8") 





Unicode 提 供 了 不 同 编码 系统 之 间 字 符 转 换 的 桥 染 ， 要 避免 令 人 头 
疼 的 乱码 或 者 避免 UnicodeDecodeError 以 及 UnicodeEncodeError 等 错误 ， 
需要 弄 清楚 字符 所 采用 的 编码 方式 以 及 正确 的 解码 方法 。 对 于 中 文字 
人 符 ， 为 了 做 到 不 同系 统 之 间 的 兼容 ， 建 议 直 接 使 用 Unicode 表 示 方 式 。 
Python2.6 之 后 可 以 通过 import ”unicode_literals 自 动 将 定义 的 普通 字符 识 
别 为 Unicode 字 符 串 ， 这 样 字 符 串 的 行为 将 和 Python3 中 保持 一 致 。 








u'\u4e2d\u6587\u6d4b\u8bd5' 





建议 18: 构建 合理 的 包 层 次 来 管理 module 


我 们 知道 ， 本 质 上 每 一 个 Python 文件 都 是 一 个 模块 ， 使 用 模块 可 以 
增强 代码 的 可 维护 性 和 可 重用 性 。 但 显然 在 大 的 项 目 中 将 所 有 的 Python 
文件 放 在 一 个 目录 下 并 不 是 一 个 值得 推荐 的 做 法 ， 我 们 需要 合理 地 组 织 
项 目的 层次 来 管理 模块 ， 这 就 是 包 〈Package) 发 挥 功效 的 地 方 了 。 


什么 是 包 呢 ?简单 说 包 即 是 目录 ， 但 与 普通 目录 不 同 ， 它 除了 包含 
常规 的 Python 文 件 ( 也 就 是 模块 以 外 ， 还 包含 一 个 ”init .py 文件 ， 
同时 它 允 许 租 套 。 包 结构 如 下 : 























包 中 的 模块 可 以 通过 “.” 访 问 符 进行 访问 ， 即 “ 包 名 .模块 名 。 如 上 
述 舱 套 结 构 中 访问 Package 目 录 下 的 Modulel 可 以 使 用 Package.Modulel， 
而 访问 Subpackage 中 的 Modulel 则 可 以 使 用 
Package.Subpackage.Modulel1。 包 中 的 模块 同样 可 以 被 导入 其 他 模块 
中 。 有 以 下 几 种 导入 方法 : 


1) 直接 导入 一 个 包 ， 具 体 如 下 : 








import Package 





, 2) 导入 子 模块 或 子 包 ， 包 髓 套 的 情况 下 可 以 进行 嵌 套 导入 ， 具 体 
es 








前 面 提 到 在 包 对 应 的 目录 下 包含 有 __init_ .py 文件 ， 那 么 这 个 文件 
的 作用 是 什么 呢 ?” 它 最 明显 的 作用 就 是 使 包 和 普通 目录 区 分 ; 其 次 可 以 
在 该 文件 中 申明 模块 级 别 的 import 语 句 从 而 使 其 变 成 包 级 别 可 见 。 上 例 
所 示 的 结构 中 ， 如 果 要 import 包 Package 下 Modulel 中 的 类 Test， 当 
_jinit_ .py 文件 为 空 的 时 候 需 要 使 用 完整 的 路 径 来 申明 import 语 句 : 


from Package.Module1 ;import Test 





但 如 果 在 _init .py 文件 中 添加 from Modulel import Test 语 句 ， 则 
可 以 直接 使 用 from Package import Test 来 导入 类 Test。 需 要 注意 的 是 ， 如 
果 _init_ .py 文件 为 空 ， 当 意图 使 用 from Package import * 将 包 Package 中 
所 有 的 模块 导入 当前 名 字 空 间 时 并 不 能 使 得 导入 的 模块 生效 ， 这 是 因为 
不 同 平台 间 的 文件 的 命名 规则 不 同 ，Python 解 释 器 并 不 能 正确 判定 模块 
在 对 应 的 平台 该 如 何 导 入 ， 因 此 它 仅仅 执行 _init_ .py 文件 ， 如 有 果 要 控 
制 模块 的 导入 ， 则 需要 对 __init_ .py 文件 做 修改 。 


_ init .py 文件 还 有 一 个 作用 就 是 通过 在 该 文件 中 定义 _all 变 
量 ， 控 制 需要 导入 的 子 包 或 者 模块 。 在 上 例 的 Package 目 录 下 的 
_init _.py 文 件 中 添加 : 








all = ['Module1', 'Module2','Subpackage'] 





之 后 再 运行 from Package import *， 可 以 看 到 _all ”变量 中 定义 的 
模块 和 包 被 导入 当前 名 字 空 间 。 








>>> from Package import * 


>>> d 
['Module1', 'Module2', 'Subpackage', '_ builtins_ ', '_doc ', '_name ', '_ package _'] 





包 的 使 用 能 够 带 来 以 下 便利 : 


合理 组 织 代码 ， 便 于 维护 和 使 用 。 通 过 将 关系 密切 的 模块 组 织 成 
一 个 包 ， 使 项 目 结构 更 为 完善 和 合理 ， 从 而 增强 代码 的 可 维护 性 和 实用 





性 。 以 下 是 一 个 可 供 参 考 的 Python 项 目 结构 : 





ProjectName/ 

|---README 

----LICENSE 

----Setup.py 

----- requirements .txt 
ple/ 


--__init .py 

----core.py 

----helpers.py 
/ 


----package/ 

----- init .py 

----- Subpackage/ 
----tests/ 

------ test_basic.py 
------ test_advanced .py 











能够 有 效 地 避免 名 称 空间 冲突 。 使 用 from Package import Module2 
可 以 将 Module2 导 入 当前 局 部 名 字 空 间 ， 访 问 的 时 候 不 再 需要 加 入 包 
名 。 看 下 面 这 个 例子 : 





>>> from Package import Module2 
>>> Module2.Hi() 
Hi from Package Module1 





上 述 代 码 中 Subpackage 中 也 包含 Module2， 当 使 用 from..，import... 导 
入 的 时 候 ， 生 效 的 是 Subpackage 的 Module2。 结 果 如 下 : 





>>> from Package.Subpackage import Module2 
>>> Module2.Hi() 
Hi from Subpackage Module2 











如 果 模 块 包含 的 属性 和 方法 存在 同名 冲突 ， 使 用 import module 可 以 
有 效 地 避免 名 称 冲突 。 在 舱 套 的 包 结 构 中 ， 每 一 个 模块 都 以 其 所 在 的 完 
整 路 径 作 为 其 前 经， 因此， 即使 名 称 一 样 ， 但 由 于 模块 所 对 应 的 其 前 级 
不 同 ， 因 此 不 会 产生 冲突 。 











>>> import Package.Module2 
>>> Package.Module2.Hi() 
Hi from Package Module1 


>> import Package.Subpackage.Module2 
>>> Pa ckage .Subpackage.Module2.Hi() 
Hi from Subpackage Module2 





注意 : 本 市 所 说 的 包 与 后 文中 谈 到 的 软件 包 不 同 ， 这 里 的 包 的 概念 
仅 限 于 包含 一 个 或 一 系列 Python 文 件 (模块) 的 文件 夹 (目录 ) ， 它 的 
作用 是 合理 组 织 代 码 ， 便 于 维护 和 使 用 ， 并 避免 命名 冲突 。 





第 3 章 ”基础 语法 


Python 中 常见 的 基本 数据 类 型 有 数字 、 字 符 串 、 列 表 、 字 典 、 集 
合 、 元 组 等 ， 第 见 语法 有 和 条件、 循环 、 函 数 、 列 表 解 析 等 。 它 们 两 者 组 
合 起 来 便 构成 了 Python 程序 的 基本 要 系 ， 可 以 称 之 为 基础 语法 。 本 章 我 
们 主要 从 语法 层面 阐述 一 些 使 用 技巧 和 注意 事项 。 





建议 19: 有 节制 地 使 用 from...import 语 句 


Python 提供 了 3 种 方式 来 引入 外 部 模块 : import 语 句 、from...import... 
及 _import 函数 。 其 中 较为 稼 见 的 为 前 面 两 种 ， 而 _ import 函数 与 
import 语 名 类似 ， 不 同 点 在 于 前 者 显 式 地 将 模块 的 名 称 作为 字符 串 传递 
并 赋值 给 命名 空间 的 变量 。 


在 使 用 import 的 时 候 注意 以 下 几 点 : 


PE a 形式 ， 如 访问 B 时 需要 使 用 a.B 的 
形式 。 


.有 节制 地 使 用 from a import B 形 式 ， 可 以 直接 访问 B。 


:尽量 避免 使 用 from a import *， 因 为 这 会 污染 命名 空间 ， 并 且 无 法 
清晰 地 表示 导入 了 哪些 对 象 。 


为 什么 在 使 用 import 的 时 候 要 注意 以 上 几 点 呢 ? 在 回答 这 个 问题 之 
前 先 来 简单 了 解 一 下 Python 的 import 机 制 。Python 在 初始 化 运行 环境 的 
时 候 会 预先 加 载 一 批 内 建 模 块 到 内 存 中 ， 这 些 模块 相关 的 信息 被 存放 在 
sys.modules 中 。 读 者 导入 sys 模 块 后 在 Python 解释 器 中 输入 
sys.modules.items() 便 可 显示 所 有 预 加 载 模块 的 相关 信息 。 当 加 载 一 个 模 
块 的 时 候 ， 解 释 器 实际 上 要 完成 以 下 动作 : 


1) 在 sys.modules 中 进行 搜索 看 看 该 模块 是 否 已 经 存在 ， 如 果 存 
在 ， 则 将 其 导入 到 当前 局 部 命名 空间 ， 加 载 结 束 。 


2) 如 果 在 sys.modules 中 找 不 到 对 应 模块 的 名 称 ， 则 为 需要 导入 的 
模块 创建 一 个 字典 对 象 ， 并 将 该 对 象 信 息 插入 sys.modules 中 。 


3) 加 载 前 确认 是 否 需要 对 模块 对 应 的 文件 进行 编译 ， 如 果 需 要 则 
先进 行 编译 。 


4) 执行 动态 加 载 ， 在 当前 模块 的 命名 空间 中 执行 编译 后 的 字 节 
码 ， 并 将 其 中 所 有 的 对 象 放 入 模块 对 应 的 字典 中 。 


我 们 以 用 户 自 定义 的 模块 为 例 来 看 看 sys.modules 和 当前 局 部 命名 空 






































间 发 生 的 变化 。 在 Python 的 安装 目录 下 创建 一 个 简单 的 模块 


testmodule.py: 





a=1 


bi Ta 
print "testing module import" 








我 们 知道 用 户 模 块 未 加 载 之 前 ，sys.modules 中 并 不 存在 相关 信息 。 
那么 进行 import testmodule 操 作 会 发 生 什么 情况 呢 ? 





>>> dir() 
['_builtins _', '_doc _', '_name ', '_package ', 'sys'] 
>>> import testmodule 
testing module import 
>>> dir 
Dimport testmodule 
之 后 局 部 命名 空间 发 生变 化 
je builtins ', '_doc _', '_name_', '_ package ', 'sys', 'testmodule' 











] 
>>> 'testmodule' in sys.modules.keys() 
True 





>>> id(testmodule) 
35776304 
>>> id(sys.modules['testmodule']) 
tt 
(no 
Tr builti doc yy "file name__', '_ package _', 'a', 'b'] 
Ss Sys: modu esr testmodule']._ dict_ _ ee 
ED Do Mm Ld 








从 输出 结果 可 以 看 出 ， 对 于 用 户 定 义 的 模块 ，import 机 制 会 创建 一 
个 新 的 module 将 其 加 入 当前 的 局 部 命名 空间 中 ， 与 此 同时 ，sys.modules 
也 加 入 了 该 模块 的 相关 信息 。 但 从 它们 的 id 输出 结果 可 以 看 出 ， 本 质 上 
是 引用 同一 个 对 象 。 同 时 会 发 现 testmodule.py 所 在 的 目录 下 多 了 一 
个 .pyc 的 文件 ， 该 文件 为 解释 器 生成 的 模块 相对 应 的 字 节 码 ， 从 import 
之 后 的 输出 “testing module import* 可 以 看 出 模块 同时 被 执行 ， 而 a 和 b 被 
写 入 testmodule 所 对 应 的 字典 信息 中 。 


需要 注意 的 是 ， 直 接 使 用 import 和 使 用 from a import B 形 式 这 两 者 之 
间 存 在 一 定 的 差异 ， 后 者 直接 将 B 暴 露 于 当前 局 部 空间 ， 而 将 a 加 载 到 


sys.modules 集 合 。 











>>> import sys 

>>> dir() 

['_builtins _', '_doc _', '_name _', '_package ', 'sys'] 
>>> from testmodule import a 

testing module import 

>>> dir() 




















@ 使 用 from...... import...... 

之 后 命名 空间 发 生 的 变化 

['_ builtins ', '_doc _', '_name ', '_package ', 'a', 'sys'] 
>>> sys.modules['testmodule'] 

<module 'testmodule' from 'testmodule.pyc'> 

>>> id(sys.modules['testmodule']) 

36562576 











>>> id(a) 
31697400 
>>> id(sys.modules['a']) 
Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 
KeyError: 'a' 





了 解 完 import 机 制 ， 我 们 再 来 看 看 对 于 from a import .无 节制 的 使 
用 会 带 来 什么 问题 。 
(1) 命名 空间 的 冲突 
来 看 一 个 例子 。 假 设 有 如 下 3 个 文件 : a.py，b.py 及 importtest.py， 
其 中 a 和 b 都 定义 了 add0 函 数 ， 当 在 import test 文 件 中 同时 采用 
from...import... 的 形式 导入 add 的 时 候 ，import test 中 起 作用 的 到 底 是 哪 一 
个 函数 呢 ? 


文件 apy 如 下 : 





def add() : 
print "add in module A" 





文件 b.py 如 下 : 





def add() : 
print "math in module B" 





文件 importtest.py 如 下 : 





from a import add 

from b import add 

六 name, == "main __"' 
math() 








从 程序 的 输出 “add in module B” 可 以 看 出 实际 起 作用 的 是 最 近 导 入 








的 add()， 它 完全 和 窗 产 了 当前 命名 空间 之 前 从 a 中 导入 的 add()。 在 项 目 
中 ， 特 别 是 大 型 项 目 中 频繁 地 使 用 from a import ... 的 形式 会 增加 命名 空 
间 冲 突 的 概率 从 而 导致 出 现 无 法 预料 的 问题 。 因 此 需要 有 节制 地 使 用 
from...import 语 句 。 一 般 来 说 在 非常 明确 不 会 造成 命名 冲突 的 前 提 下 ， 
以 下 几 种 情况 下 可 以 考虑 使 用 from...import 语 句 : 


1) 当 只 需要 导入 部 分 属性 或 方法 时 。 


2) 模块 中 的 这 些 属性 和 方法 访问 频率 较 高 导致 使 用 “模块 名 .名 
称 ” 的 形式 进行 访问 过 于 烦琐 时 。 
3) 模块 的 文档 明确 说 明 需 要 使 用 from...import 形 式 ， 导 入 的 是 一 个 


包 下 面 的 子 模块 ， 且 使 用 from...import 形 式 能 够 更 为 简单 和 便利 时 。 如 
使 用 from io.drivers import zip 要 比 使 用 import io.drivers.zip 更 方便 。 


(2) 循环 舱 套 导入 的 问题 
先 来 看 下 面 的 例子 : 




















无 论 运 行 上 面 哪 一 个 文件 都 会 抛 出 ImportError 异 常 。 这 是 因为 在 执 
行 cl.py 的 加 载 过 程 中 ， 需 要 创建 新 的 模块 对 象 c1 然 后 执行 cl.py 所 对 应 
的 字 节 码 。 此 时 遇 到 语句 from c2 import g， 而 c2 在 sys.modules 也 不 存 
在 ， 故 此 时 创建 与 c2 对 应 的 模块 对 象 并 执行 c2.py 所 对 应 的 字 节 但 。 当 遇 
到 c2 中 的 语句 from cl import x 时 ， 由 于 cl 已 经 存在 ， 于 是 便 去 其 对 应 的 
字典 中 查找 g， 但 cl 模块 对 象 虽然 创建 但 初始 化 的 过 程 并 未 完成 ， 因 此 
其 对 应 的 字典 中 并 不 存在 g 对 象 ， 此 时 便 抛 出 ImportError: cannot import 
name g 异 常 。 而 解决 循环 藤 套 导入 问题 的 一 个 方法 是 直接 使 用 import 语 
句 。 读 者 可 以 自行 验证 。 





建议 20: 优先 使 用 absolute import 来 导入 模块 


假设 有 如 下 文件 结构 ， 其 中 app/subl/string.py 中 定义 了 一 个 lower() 
方法 ， 那 么 当 在 mod1.py 中 import string 之 后 再 使 用 string.lower() 方 法 时 ， 
到 底 引 用 的 是 subl/string.py 中 的 lower0) 方 法 ， 还 是 Python 标准 库 中 string 
里 面 的 lower() 方 法 呢 ? 








从 程序 的 输出 会 发 现 ， 它 引用 的 是 app/sub1/string.py 中 的 lower0) 方 
法 。 显 然 解 释 器 默认 先 从 当前 目录 下 搜索 对 应 的 模块 ， 当 搜 到 string.py 
的 时 候 便 停 止 搜索 进行 动态 加 载 。 那 么 ， 如 末 要 使 用 Python 目 融 的 string 
模块 中 的 方法 ， 该 怎么 实现 呢 ? 这 就 涉及 absolute import 和 relative import 
相关 的 话题 了 。 


在 Python2.4 以 前 默认 为 隐 式 的 relative import， 局 部 范围 的 模块 将 履 
盖 同 名 的 全 局 范围 的 模块 。 如 果 要 使 用 标注 库 中 同名 的 模块 ， 你 不 得 不 
去 深入 考察 sys.modules 一 熏 ， 显 然 这 并 不 是 一 种 非常 友好 的 做 法 。 
Python2.5 中 后 虽然 默认 的 仍然 是 relative import， 但 它 为 absolute import 
提供 了 一 种 新 的 机 制 ， 在 模块 中 使 用 from _ future import 
absolute_import 语句 进行 说 明 后 再 进行 导入 。 同 时 它 还 通过 点 号 提供 了 
一 种 显 式 进行 relative _ import 的 方法 ,“.” 表 示 当 前 目录 ,，“..” 表 示 当 前 目 
录 的 上 一 层 目录 。 例 如 想 在 modl.py 中 导入 string.py， 可 以 使 用 from 
import ”string， 其 中 mod1 所 在 的 包 层 次 结构 为 app.sub1.mod1,“.” 表 示 
app.sub1; 如 果 想 导入 sub2/mo2.py 可 以 使 用 from ..SUb2 import 
mod2，“..” 代 表 的 是 app。 


但 事情 是 不 是 就 此 结束 了 呢 ? 远 不 止 ， 使 用 显 式 relative import 之 后 
再 运行 程序 一 不 小 心 你 就 有 可 能 遇 到 这 种 错误 “ValueError: Attempted 
relative import in non-package”。 这 是 什么 原因 呢 ? 这 个 问题 产生 的 原 
在 于 relative import 使 用 模块 的 _name 属性 来 决定 当前 模块 在 包 层 次 结 

















构 中 的 位 置 ， 如 果 当 前 的 模块 名 称 中 不 包含 任何 包 的 信息 ， 那 么 它 将 默 
认为 模块 在 包 的 顶层 位 置 ， 而 不 管 模块 在 文件 系统 中 的 实际 位 置 。 而 在 
relative import 的 情形 下 ， ”name_ 会 随 着 文件 加 载 方式 的 不 同 而 发 生 改 
变 ， 上 例 中 如 在 目录 app/sub1/ 下 运行 Python ”mod1.py， 会 发 现 模 块 的 
_name 为 _main _ ， 但 如 果 在 目录 app/sub1/ 下 运行 Python-m 

mod1.py， 会 发 现 _name_ 变 为 mod1。 其 中 -m 的 作用 是 使 得 一 个 模块 像 
脚本 一 样 运行 。 而 无 论 以 何 种 方式 加 载 ， 当 在 包 的 内 部 运行 脚本 的 时 
候 ， 包 相关 的 结构 信息 都 会 丢失 ， 默 认 当 前 脚本 所 在 的 位 置 为 模块 在 包 
中 的 顶层 位 置 ， 因 此 便 会 抛 出 异常 。 如 果 确 实 需要 将 模块 当 作 脚本 一 样 
运行 ， 解 决 方法 之 一 是 在 包 的 顶层 目录 中 加 入 参数 -mm 运行 该 脚本 ， 上 例 
中 如 果 要 运行 脚本 mod1.py 可 以 在 app 所 在 的 目录 的 位 置 输入 Python -m 
app.sub1.modl1。 另 一 个 解决 这 个 问题 的 方法 是 利用 Python2.6 在 模块 中 引 
入 的 _package 属性， 设置 _package_ 之后， 解释 器 会 根据 
_package 和 ”name _ 的 值 来 确定 包 的 层次 结构 。 上 面 的 例子 中 如 果 
将 mod1.py 修 改 为 以 下 形式 便 不 会 出 现在 包 结 构 内 运行 模块 对 应 的 脚本 
时 出 错 的 情况 了 。 























if name, == "main_ "and package is None: 





ath[0] 


相 比 于 absolute import，relative import 在 实际 应 用 中 反馈 的 问题 较 
多 ， 因 此 推荐 优先 使 用 absolute import。absolute import 可 读 性 和 出 现 问 
题 后 的 可 跟踪 性 都 更 好 。 当 项 目的 包 层 次 结构 较为 复杂 的 时 候 ， 显 式 
relative import 也 是 可 以 接受 的 ， 由 于 命名 冲突 的 原因 以 及 语义 模糊 等 原 
因 ， 不 推荐 使 用 隐 式 的 relative import， 并 且 它 在 Python3 中 已 经 被 移 
除 。 





建议 21: i+=1 不 等 于 ++i 


对 于 对 Python 语 言 的 每 个 细节 了 解 得 不 是 那么 清楚 ， 而 恰好 义 有 其 
他 语言 背景 的 开发 人 员 ， 很 有 可 能 写 出 如 下 类 似 的 代码 : 











运行 这 段 代码 会 有 什么 问题 ? 也 许 你 会 说 : 抛 出 语法 错误 。 能 说 出 
这 个 答案 的 至 少 知道 Python 中 是 不 文 持 ++i 操 作 的 。 但 输出 果真 如 此 
吗 ? 非 也 ， 这 段 程序 不 会 抛 出 任何 语法 错误 ， 却 会 无 限 循环 地 输出 1。 
原因 是 什么 呢 ? 因为 Python 解释 器 会 将 ++i 操 作 解 释 为 +(+D， 其 中 + 表示 
正 数 符 写 。 对 于 --i 操 作 也 是 类 似 。 








因此 你 需要 明白 ++i 在 Python 中 语法 上 有 是 合法 的 ， 但 并 不 是 我 们 理 
解 的 通常 意义 上 的 自 增 操作 。 


建议 22: 使 用 with 自动 关闭 资源 


来 做 个 简单 的 试验 ， 观 察 一 下 发 生 的 现象 。 在 Python 解释 器 中 输入 
F 面 两 行 代码 ， 会 有 什么 情况 发 生 呢 ? 











>>> f = open('test.txt', 'w') 
>>> f.write("test") 


答案 是 : 在 解释 器 所 在 的 日 录 下 生成 了 一 个 文件 test.txt， 并 且 在 里 
面 写 入 了 字符 串 test， 对 吗 ? 事实 真相 是 : 的 确 生成 了 一 个 文件 ， 但 其 
内 容 为 室 ， 并 没有 写 入 任何 字符 串 。 这 个 一 个 简单 得 不 能 再 简单 的 问 
题 ， 相 信 不 用 多 说 你 已 经 知道 症结 所 在 了 。 


对 文件 操作 完成 后 应 该 立即 关闭 它们 ， 这 是 一 个 常识 。 我 们 都 知道 
需要 这 么 做 ， 在 很 多 编程 语言 中 都 会 强调 这 个 问题 ， 因 为 打开 的 文件 不 
仅 会 占用 系统 资源 ， 而 且 可 能 影响 其 他 程序 或 者 进程 的 操作 ， 甚 至 会 导 
致 用 户 期 望 与 实际 操作 结果 不 一 致 。 但 实际 应 用 中 真相 往往 是 : 即使 我 
们 心中 记得 这 个 原则 ， 但 仍然 可 能 会 忘记 关闭 它 。 为 什么 ”因为 编程 人 
员 会 把 更 多 的 精力 和 注意 力 放 在 对 具体 文件 内 容 的 操作 和 处 理 上 ; 或 者 
设计 的 正常 流程 是 处 理 完毕 关闭 文件 ， 但 结果 程序 执行 过 程 中 发 生 了 异 
和 导致 关闭 文件 的 代码 没有 被 执行 到 。 也 许 你 会 说 ， 还 有 try..finally 
块 。 对 ! 这 是 一 种 比较 古老 的 方法 ， 但 Python 提供 了 一 种 更 为 简单 的 解 
决 方案 : with 语句 。with 语 句 的 语法 为 : 




















with 

表达 式 [ as 
目标 ] 

代码 块 


with 语句 支持 能 套 ， 文 持 多 个 with 子 句 ， 它 们 两 者 可 以 相互 转 
换 。“with exprl as el , expr2 as e2” 与 下 面 的 藤 套 形式 等 价 : 


with 语句 的 使 用 非 营 简单 ， 本 布 开头 的 例子 改 用 with 语句 能 够 保证 
当 写 操作 执行 完毕 后 目 动 天 闭 文 件 。 


with 语 句 可 以 在 代码 块 执行 完毕 后 还 原 进 入 该 代码 块 时 的 现场 。 包 
含有 with 语 句 的 代码 块 的 执行 过 程 如 下 : 


1) 计算 表达 式 的 值 ， 返 回 一 个 上 下 文 管理 器 对 象 。 
2) 加 载 上 下 文 管理 器 对 象 的 _exit (方法 以 备 后 用 。 
3) 调用 上 下 文 管理 器 对 象 的 _enter_0 方 法 。 


4) 如 果 with 语 句 中 设置 了 目标 对 象 ， 则 将 _enter 0 方法 的 返回 值 
赋值 给 目标 对 象 。 


5) 执行 with 中 的 代码 块 。 


6) 如 果 步 又 5 中 代码 正常 结束 ， 调 用 上 下 文 管理 器 对 象 的 _exit (0 
方法 ， 其 返回 值 直接 忽略 。 


7) 如 果 步 又 5 中 代码 执行 过 程 中 发 生 异 常 ， 调 用 上 下 文 管理 絮 对 象 
的 _exit _0 〇 方法， 并 将 异常 类 型 、 值 及 traceback 信 息 作 为 参数 传递 给 
exit (0) 方法。 如 果 _exit 0 返回 值 为 false， 则 异常 会 被 重新 抛 出 ; 如 
果 其 返回 值 为 rue， 异常 被 挂 起 ， 程 序 继续 执行 。 


在 文件 处 理 时 使 用 with 的 好 处 在 于 无 论 程序 以 何 种 方式 跳出 with 

块 ， 总 能 保证 文件 被 正确 关闭 。 实 际 上 它 不 仅仅 针对 文件 处 理 ， 针 对 其 
他 情景 同样 可 以 实现 运行 时 环境 的 清理 与 还 原 ， 如 多 线程 编程 中 的 锁 对 
象 的 管理 。with 的 神奇 实际 得 益 于 一 个 称 为 上 下 文 管理 器 〈context 
manager) 的 东西 ， 它 用 来 创建 一 个 运行 时 的 环境 。 上 下 文 管理 器 是 这 
样 一 个 对 象 : 它 定 义 程序 运行 时 需要 建立 的 上 下 文 ， 处 理 程序 的 进入 和 
> | ee 理 协议 ， 即 在 对 象 中 定义 _enter (0 和 exit _(0) 
方法 。 其 中 : 

















enter _(); 进入 运行 时 的 上 下 文 ， 返 回 运行 时 上 下 文 相关 的 对 
象 ，with 语 句 中 会 将 这 个 返回 值 绑 定 到 目标 对 象 。 如 上 面 的 例子 中 会 将 
文件 对 象 本 映 返 回 并 绑 定 到 目标 f。 





.exit (exception_type,exception_value,traceback): 退出 运行 时 的 
上 和 下文， 定义 在 块 执行 〈 或 终止 ) 之 后 上 下 文 管理 器 应 该 做 什么 。 它 可 
以 处 理 异 常 、 清 理 现场 或 者 处 理 with 块 中 语句 执行 完成 之 后 需要 处 理 的 
动作 


实际 上 任何 实现 了 上 下 文 协议 的 对 象 都 可 以 称 为 一 个 上 下 文 管 
器 ， 文 件 也 是 实现 了 这 个 协议 的 上 下 文 管理 器 ， 它 们 都 外 5 
兼容 。 文 件 对 象 的 ”enter 和 ”exit 属性 如 下 : 








_en 
<built- in nethog enter__ of file object at 0x029F0700> 
_ ex 


bul in ed _ exit _ of file object at QOx029F0700> 








用 户 也 可 以 定义 自己 的 上 下 文 管理 器 来 控制 程序 的 运行 ， 只 需要 实 
现 上 下 文 协议 便 能 够 和 with 语句 一 起 使 用 。 





>>> class De 0 ec 人 
def _enter__ (Self) :# 

实现 让 

方法 


print "entering . 
def _ exit —(self, 2xception_ type，exception_value，traceback ) : 

print "leaving. 

于 exception_ type is None: 
print "no exceptions!'" 
return False 

elif exception_ type is ValueError: 

nt "value error! 

return True 

else: 
print "other error" 
return True 


>>> 

>>> with MyContextManager(): 

ee print "Testing..." 
raise(ValueError) 

ered 

Testing. 

leaving.. 

Yaesue error! 


>>> with MySentextMoneger ty 
print "Testing. 


entering， 
Testing. 
leaving.. 
D2 exceptions! 


因为 上 下 文 管理 器 主要 作用 于 资源 共享 ， 因 此 在 实际 应 用 中 
enter() ”和 ”exit() 方法 基本 用 于 资源 分 配 以 及 释放 相关 的 工作 ， 如 
打开 /关闭 文件 、 异 党 处 理 、 汤 开 流 的 连接 、 锁 分 配 等 。 为 了 更 好 地 辅 
助 上 下 文 管理 ，Python 还 提供 了 contextlib 模 块 ， 该 模块 是 通过 Generator 
实现 的 ，contextlib 中 的 contextmanager 作 为 装饰 器 来 提供 一 种 针对 函数 
级 别 的 上 下 文 管理 机 制 ， 可 以 直接 作用 于 函数 /对 象 而 不 用 去 关心 
enter() 和 _ exitO 方法 的 具体 实现 。 关 于 contextlib 更 多 内 容 读者 可 
以 参考 网 页 http://docs.python.org/2/library/contextlib.html。 


建议 23: 使 用 else 子 句 简 化 循环 《天 各 处 理 ) 


有 其 他 编程 语言 经 验 的 程序 员 接触 到 Python 时， 对 于 它 无 所 不 在 的 
else 往 往 感到 非常 惊讶。 在 Python 中 ， 不 仅 分 支 语句 有 else 子 句 ， 而 且 特 
环 说 铅 也 有 ， 其 至 连 异常 处 理 也 有 。 首 先 米 看 看 任 环 谨 铅 中 的 else， 看 

它们 的 语法 。 








while_stmt ::= "while" expression ":" suite 
mr en j 


S :" suite 
for_stmt ::= "for" target_list "in" expression_list ":" suite 
"else" ":" suite] 





从 语法 定义 中 可 以 看 到 如 果 没 有 ["else" ":" suite] 这 一 块 ，Python 的 
循环 语句 跟 大 多 数 语言 并 无 二 致 。 要 谈 else 子 句 ， 必 须 先 从 Python 从 其 
他 语言 中 借鉴 的 语义 相同 的 break 语 句 说 起 ， 因 为 else 子 句 提 供 了 隐 含 的 
人 

可 的 斧 








def print_prime(n): 
for i in xrange(2, nN): 
d = 


ound: 
print '%d is a prime number'%i 





这 是 一 个 碍 找 系 数 的 简单 实现 ， 可 以 看 到 我 们 借助 了 一 个 标志 量 
found 来 判断 是 循环 结束 是 不 是 由 break 语 句 引起 的 。 如 果 对 else 善 加 利 
用 ， 代 码 可 以 简洁 得 多 。 来 看 下 面 的 具体 实现 : 





def print_prime2(n) : 
i in xrange(2, nN): 
or j in xrange(2, i): 
if 寺 jj == 98; 
break 


else: 
print '%d is a prime number'%i 





当 循 环 * 目 然 ? 终 结 《〈 循 环 条 件 为 假 ) 时 else 从 名 会 被 执行 一 次 ， 而 


当 循 环 是 由 break 语 句 中 断 时 ，else 子 句 就 不 被 执行 。 与 for 语 句 相似 ， 
whilet 0 的 语意 是 一 样 的 : else 块 在 循环 正常 结束 和 循环 
条 件 不 成 立时 被 执行 


与 C/C++ 等 较为 “ 老 土 "的 语言 相 比 ，else 子 句 使 程序 员 的 生产 力 和 代 
码 的 可 读 性 都 得 到 了 提高 ， 所 以 建议 大 家 多 使 用 else， 让 程序 变 得 更 加 
Pythonic 。 


在 Python 的 异常 处 理 中 ， 也 提供 了 else 子 句 语 法 ， 这 颗 “ 语 法 糖 ”的 
意义 跟 循环 语句 中 的 else 是 相似 的 : try 块 没有 抛 出 任何 异常 时 ， 执 行 
else 块 。 按 惯例 先 看 一 下 如 下 语法 定义 : 





try_stmt ::= tr A stm ns ! 4 stmt 
try1_stmt ::= "try" 
全 ex ep [ex pe n [("as" | ",") target]] ":" suite)+ 
["else" ":" ite 
["finally' te] 
trya stmE Se ET 
"finally" t 





从 tryl_stmt 的 定义 中 可 以 看 到 ，Python 的 异常 处 理 中 有 一 种 try- 
except-else-finally 形 式 。 下 面 的 例子 是 把 数据 写 入 文件 中 。 





def save(db, obj): 
try: 
# Save attri 
oo ex eeu uo a Sql stmt', obj.attri1) 
att 
和 execu vel another sql stmt', obj.attr2) 
except DBE 
db: Follback() 


else 
db. commit() 








如 琳 没 有 else 子 外， 束 像 前 文中 关于 循环 的 例子 一 样 ， 需 要 引入 一 
个 标志 变量 。 





def Sey a obj): 
_error_occurred = False 
ti 
# save attri 
db .execu 中 a Sql stmt'，obj.attr1) 
# Save attr 
db .execu ute( another sql stmt', obj.attr2) 
except DBError 
db. rollback( ) 
ome_error_occurred = True 
if not some_error_occurred: 








这 样 代码 就 变 得 复杂 了 。 在 Python 中 还 有 不 少 语法 都 是 致力 于 让 程 
序 员 可 以 编写 更 加 简明 、 更 接近 自然 语言 语义 的 代码 ， 比 如 ih 和 with 语 
名 《将 在 其 他 章 中 讲述 相关 用 法 ) ， 这 也 证 明 充 分 地 学 习 手 册 中 的 
Language Reference 非 常 有 必要 。 


建议 24: 章 循 异 遇 处理 的 几 点 基本 原则 


现实 世界 是 不 完美 的 ， 意 外 和 异常 会 在 不 经 意 间 发 生 ， 从 而 使 我 们 
的 生活 不 得 不 暂时 偏离 正常 轨道 ， 软 件 世 界 也 是 如 此 。 或 因为 外 部 原 
因 ， 或 因为 内 部 原因 ， 程 序 会 在 某 些 条 件 下 产生 异常 或 者 错误 。 为 了 提 
高 系统 的 健壮 性 和 用 户 的 友好 性 ， 需 要 一 定 的 机 制 来 处 理 这 种 情况 。 跟 
其 他 很 多 编程 语言 一 样 ，Python 也 提供 了 异常 处 理 机 制 。Python 中 常用 
的 异常 处 理 语 法 是 try、except、else、finally， 它 们 可 以 有 多 种 组 合 ， 如 
try-except (一 个 或 多 个 ) ，try -except-else; try -finally 以 及 try -except- 
else-finally 和 等。 语法 形式 如 下 : 














Cr 
<statements> # Run this main action first 
except <name1>: 

<statements> # 





me 

的 某 一 个 异常 的 时 候 处 理 
except <name4> as <data>: 
<statements> 

当 try 
中 


发 生 name4 
的 异常 时 处 理 ， 并 获取 对 应 实例 
except: 








和 
和 
ept: 

<statements> # 
其 他 异常 发 生 时 处 理 





没有 异常 发 生 时 执行 
和 





<statements> 
不 管 有 没有 异常 发 生 都 会 执行 





最 为 全 面 的 组 合 try -except-else-finally 异 常 处 理 的 流程 如 图 3-1 所 


人 钞 。 


try 代 码 志 


有 异常 发 1 N 
搜索 except 滞 句 对 应 的 执行 else 中 的 语句 


eXCeptions 


N ehh 
Y 
于 
except 中 有 异常 发 和 1 “> 


执行 fnally 语 名 


向 上 一 层 扫 出 异常， 如 处 理 不 当 可 | Y 
导致 前 面 扫 出 的 异常 丢失 finally 中 有 异 发 生 ? 


N 









结束 


图 3-1 异常 处 理 的 流程 图 
异常 处 理 通 常 需 要 遵循 以 下 几 点 基本 原则 : 


1) 注意 异常 的 粒度 ， 不 推荐 在 try 中 放 入 过 多 的 代码 。 异 常 的 粒度 
是 人 为 划分 的 ， 在 处 理 异 党 的 时 候 最 好 保持 异常 粒度 的 一 致 性 和 合理 
性 ， 同 时 要 避免 在 try 中 放 入 过 多 的 代码 ， 即 避免 异常 粒度 过 大 。 在 try 
中 放 入 过 多 的 代码 市 来 的 问题 是 如 果 程 序 中 抛 出 异常 ， 将 会 较 难 定位 ， 
给 debug 和 修复 市 来 不 便 ， 因 此 应 尽量 只 在 可 能 抛 出 异常 的 语句 块 前 面 
放 入 try 语 句 。 


2) 谨慎 使 用 单独 的 except 语 句 处 理 所 有 异常 ， 最 好 能 定位 具体 的 异 
常 。 同 样 也 不 推荐 使 用 except Exception 或 者 except StandardError 来 捕获 


已 间 
本 











亚 


O 


在 try 后 面 单独 使 用 except 语 句 可 以 捕获 所 有 的 异常 ， 从 表面 上 看 这 
似乎 是 个 不 错 的 做 法 ， 但 实际 上 会 带 来 什么 问题 呢 ? 来 看 以 下 简单 的 例 
了 了: 








EXOOPE: 
ys.exit("ZeroDivisionError:Can not division zero") 





程序 运行 以 打印 “ZeroDivisionError: Can not division zero” 结 束 ， 这 
会 让 我 们 以 为 是 发 生 了 除数 为 零 的 错误 ， 但 实际 情况 是 因为 a 在 使 用 前 
并 没有 定义 ， 程 序 引 发 了 NameError。 而 由 于 单独 的 except 语 句 的 使 用 ， 
真实 的 错误 往往 被 掩盖 。 对 上 述 代码 修改 如 下 : 








运行 程序 输出 NameError 异 常 如 下 : 


Traceback (most recen t call last): 
File "test.py", line 3, in <module> 
int 


NameError: name 'a' is not defined 





单独 使 用 except 会 捕获 包括 SystemExit，KeyboardInterrupt 等 在 内 的 
各 种 异常 ， 从 而 掩盖 程序 真正 发 生 异 常 的 原因 ， 给 debug 造 成 一 定 的 迷 
惑 性 。 因 此 需要 谨慎 使 用 ， 最 好 能 在 except 语 句 中 定位 具体 的 异常 。 如 
果 在 某 些 情况 下 不 得 不 使 用 单独 的 except 语 句 ， 最 好 能 够 使 用 raise 语 句 
将 异常 抛 出 加 上 层 传递 。 


3) 注意 异常 捕获 的 顺序 ， 在 合适 的 层次 处 理 异常 。Python 中 内 建 
异常 以 类 的 形式 出 现 ，Python2.5 后 异常 被 迁移 到 新 式 类 上 ， 启 用 了 一 个 
新 的 所 有 异常 之 母 的 BaseException 类 ， 内 建 异常 有 一 定 的 继承 结构 ， 如 
UnicodeDecodeError 继 承 自 UnicodeError， 而 其 继承 链 结 构 为 
UnicodeDecodeError -->UnicodeError  -->ValueError -->Exception -- 
>BaseException， 如 图 3-2 所 示 。 








+— UnmcodeError 


+— UmcodeDecodeError 


+— UnmcodeEncodeFrror 


+— Unmecode TranslateError 





图 3-2 ”UnicodeDecodeError 继 承 结构 示意 图 


用 户 也 可 以 继承 目 内 建 异 常 构建 目 己 的 异常 类 ， 从 而 在 内 建 类 的 继 
承 结构 上 进一步 延伸 。 在 这 种 情况 下 异常 捕获 的 顺序 显得 非常 重要 。 为 
了 更 精确 地 定位 错误 发 生 的 原因 ， 推 荐 的 方法 是 将 继承 结构 中 子 类 异常 
在 前 面 的 except 语 句 中 抛 出 ， 而 父 类 异常 在 后 面 的 except 语 句 抛 出 。 这 
样 做 的 原因 是 当 try 块 中 有 异常 发 生 的 时 候 ， 解 释 器 根据 except 声 明 的 顺 
序 进行 下 配 ， 在 第 一 个 匹配 的 地 方便 立即 处 理 该 异常 。 如 果 将 层次 较 高 
的 异常 类 在 前 面 进行 捕获 ， 往 往 不 能 精确 地 定位 异常 友 生 的 具体 位 置 。 
如 下 例 中 ValueError 声 明 在 前 而 UnicodeDecodeError 在 后 ， 当 抛 出 
UnicodeDecodeError 异 常 的 时 候 ， 由 于 它 是 ValueError 的 子 类 ， 在 
ValueError 处 便 直 接 被 捕获 了 ， 打 印 出 消息 “ValueError occured”， 而 真 
正 的 异常 UnicodeDecodeError 却 被 悄然 掩盖 。 











vm ry 


站 

) 

... Except ValueError:#ValueError 
为 UnicodeDecodeError 
的 


raise UnicodeDecodeError("pdfdocencoding","a",2,-1,"not support decoding 


n. 
父 类 ， 捕 获 异常 时 却 在 前 面 
print "ValueError occured" 
except UnicodeDecodeError,e: 
print e 


ValueError occure d 
>>> 








因此 ， 异 常 捕 获 的 顺序 非常 重要 ， 同 时 异常 应 该 在 适当 的 位 置 被 处 
理 ， 一 个 原则 束 是 如 果 异 党 能 够 在 被 捕获 的 位 置 被 处 理 ， 那 么 应 该 及 时 
处 理 ， 不 能 处 理 也 应 该 以 合适 的 方式 同上 层 抛 出 。 遇 到 异常 不 论 好 歹 吏 
同上 层 抛 出 是 非常 不 明智 的 。 同 上 层 传 递 的 时 候 需 要 警惕 异常 被 丢失 的 
情况 ， 可 以 使 用 不 带 参数 的 raise 来 传递 。 











ralse 





4) 使 用 更 为 友好 的 异常 信息 ， 遵 守 异 常 参 数 的 规范 。 软 件 最 终 是 
为 用 户 服 务 的 ， 当 异种 发 生 的 时 候 ， 腊 稼 信息 清晰 友好 与 否 直接 关系 到 
用 户 体验 。 通 利 来 说 有 两 类 开间 阅读 者 : 使 用 软件 的 人 和 开发 软件 的 
人 ， 即 用 户 和 开发 者 。 对 于 用 户 来 说 关注 更 多 的 是 业务 。 先 来 看 一 段 弄 


常 信 恩 3 

















Traceback (most nt call last) 
File "test.py", line 4, in 
print ItemPriceTable['a'] 
KeyErro ' 





如 果 将 这 上 段 信 息 给 一 个 没有 软件 编程 背景 的 人 看 ， 他 肯定 会 觉得 如 
读 天 书 一 般 ， 对 于 用 户 这 并 不 是 一 种 较为 友好 的 做 法 ， 在 面 对 用 户 的 时 
候 异 常 信息 应 该 以 较为 清晰 和 明确 的 方式 显示 出 来 。 如 下 例 中 当 查 找 一 
个 不 在 列表 的 水 果 价 格 的 时 候 给 出 相关 的 提示 信息 会 比 直 接 抛 出 
KeyError 信 息 要 友好 得 多 。 

















Import sys 
import traceback 
ItemPriceTable = {"apple":'3.5',"orange":'4',"cheery":"20", "mango":"8"} 
def getprice(itemname): 
FY 
price = ItemPriceTable[itemname] 
return price 
except KeyError : 
print "%s can not find in the price table,you Should :input another kind of fruit." 
% sys.exc_value # 
显示 异常 相关 的 提示 信息 
while 1: 
itemname = raw_input("Enter the fruit name to get the price or press x to exit: ") 
if itemname == "x": 
break 
price = getprice(itemname) 
if price != None: 
print "%s's price is $%s/kg" % (itemname, price) 





此 外 ， 如 果 内 建 寞 第 类 不 能 满足 需求 ， 用 户 可 以 在 继承 内 建 寞 第 的 
基础 上 针对 特定 的 业务 逻辑 定义 自己 的 异常 类 。 但 无 论 是 内 建 异 常 类 ， 
还 是 用 户 定 义 的 异 币 类， 在 传递 异 遇 参数 的 时 候 者 需要 遵守 异 第 参数 规 
范 。 


建议 25: 避免 finally 中 可 能 发 生 的 陷阱 

无 论 try 语 句 中 是 否 有 异常 抛 出 ，finally 语 句 总 会 被 执行 。 由 于 这 个 
特性 ，finally 语 句 经 党 被 用 来 做 一 些 清理 工作 ， 如 打开 一 个 文件 ， 抛 出 
异常 后 在 finally 语 句 中 对 文件 句柄 进行 关闭 等 。 


但 使 用 finally 时 ， 也 要 特别 小 心 一 些 陷阱 。 先 来 看 以 下 例子 : 











def FinallyTest(): 


语句 中 有 break 
五 何 





语 乌 
FinallyTest() 





上 述 程 序 输出 结果 为 : 








上 面 的 例子 中 try 代 码 块 殷 出 了 IndexError 异 常 ， 但 在 except 块 却 没有 
对 应 的 异常 声明 。 按 常理 该 异常 会 同上 层 抛 出 ， 可 是 程序 输出 却 没有 提 
示 任 何 异 着 发 生 ，IndexError 异 向 被 丢失 。 这 是 什么 原因 呢 ? 当 try 块 中 
发 生 异 常 的 时 候 ， 如 果 在 except 语 句 中 找 不 到 对 应 的 异常 处 理 ， 异 常 将 
会 被 临时 保存 起 来 ， 当 finally 执 行 完 毕 的 时 候 ， 临 时 保存 的 异常 将 会 再 
次 被 抛 出 ， 但 如 果 finally 语 句 中 产生 了 新 的 异常 或 者 执行 了 returm 或 者 
break 语 句 ， 那 么 临时 保存 的 异常 将 会 被 丢失 ， 从 而 导致 异常 屏蔽 。 这 
是 finally 使 用 时 需要 小 心 的 第 一 个 陷阱 。 再 来 看 另外 一 个 例子 : 














a <=0: 
raise ValueError("data can not be negative") 


return a 
except ValueError as e: 
print e 
finally: 
print("The End!") 
re - 


print ReturnTest(0) 
print ReturnTest(2) 





思考 一 下 这 里 程序 ReturnTest(0) 和 ReturnTest(2) 的 返回 值 是 什么 ? 
答案 是 : -1，-1。 对 于 第 一 个 调用 ReturnTest(0) 在 抛 出 ValueError 异 名 后 
直接 执行 finally 语 句 返 回 值 为 -1， 这 点 比较 容易 理解 ， 那 么 对 于 第 二 个 
调用 ReturnTest(2) 为 什么 也 返回 -1 呢 ? 这 是 因为 a>0， 会 执行 else 分 文 ， 
但 由 于 存在 finally 语 句 ， 在 执行 else 语 句 的 retum ”a 语句 之 前 会 先 执行 
finally 中 的 语句 ， 此 时 由 于 finally 语 句 中 有 return -1， 程 序 直 接 返 回 了 ， 
所 以 永远 不 会 返回 a 对 应 的 值 2。 此 为 使 用 finally 语 句 需 要 注意 的 第 二 个 
陷阱 。 在 实际 应 用 程序 开发 过 程 中 ， 并 不 推荐 在 finally 中 使 用 retum 语 句 
进行 返回 ， 这 种 处 理 方 式 不 仅 会 融 来 误解 而 且 可 能 会 引起 非常 严重 的 错 
误 。 











建议 26: 深入 理解 None， 正 确 判断 对 象 是 售 为 空 
在 学 习 Python 的 过 程 中 ， 可 能 曾经 有 人 写 过 以 下 代码 用 来 判断 变量 


日 不久 
a 是 否 为 空 : 





+ # 
Do some other thing 





那么 这 样 写 有 什么 问题 呢 ? 先 来 了 解 一 下 Python 中 哪些 形式 的 数据 
为 空 。Python 中 以 下 数据 会 当做 空 来 处 理 : 


常量 None。 

常量 False。 

-任何 形式 的 数值 类 型 零 ， 如 0、0L、0.0、0j。 
: 空 的 序列 ， 如 "、()、[。 

空 的 字典 ， 如 {}。 


` 当 用 户 定 义 的 类 中 定义 了 nonzero() 方 法 和 ]en() 方 法 ， 并 且 该 方法 返 
回 整数 0 或 者 布尔 值 False 的 时 候 。 


其 中 常量 None 的 特殊 性 体现 在 它 既 不 是 0、False， 也 不 是 空 字 符 
串 ， 它 就 是 一 个 空 值 对 象 。 其 数据 类 型 为 NoneType， 尊 循 单 例 模式 ， 
是 唯一 的 ， 因 而 不 能 创建 None 对 象 。 所 有 赋值 为 None 的 变量 都 相等 ， 
并 且 None 与 任何 其 他 非 None 的 对 象 比较 结果 都 为 False。 





>>> id(None) 
505555980 
>>> None == 0 





>>> a = None 
>>> id(a 
505555980 
>>> b = None 


人 

任何 赋值 为 None 

的 对 象 都 相同 

True 

>>2 :Tstdt = [] 

>>> if list1 is not None: 

@ 判 断 list 

是 否 为 空 

人 print List 4s" llst+t 
ca a: 
print "list is empty" 


list is: [] 
结果 表示 上 面 的 逻辑 认为 list 





上 面 的 例子 中 对 列表 是 否 为 空 的 判断 显然 不 符合 我 们 的 要 求 ， 因 为 
除非 a 被 赋值 为 None， 人 否则 else 中 的 语句 永远 不 会 被 执行 。 正 确 的 形式 如 
下 : 





F111ist+ #value is not empty 
@ 判 断 list1 
是 否 为 空 的 正确 方式 
Do something 
else: #value is empty 
Do some other thing 





标注 @) 执 行 过 程 中 会 调用 内 部 方法 _nonzero (来 判断 变量 ]ist1 是 
否 为 空 并 返回 其 结果 。 下 面 介绍 一 下 __nonzero_0 〇 方法: 该 内 部 方法 用 
于 对 自身 对 象 进行 空 值 测 试 ， 返 回 0/1 或 True/False。 如 果 一 个 对 象 没 有 
定义 该 方法 ，Python 将 获取 _len 0 方法 调用 的 结果 来 进行 判断 。 
_len (0 返回 值 为 0 则 表示 为 空 。 如 果 一 个 类 中 既 没 有 定义 _len_ 间 方 
法 也 没有 定义 _ nonzero_ 0 方法， 该 类 的 实例 用 if 判 断 的 结果 都 为 


True。 





def _nonzero_ (self): # 
类 中 实现 了 __nonzero__ 
方法 





print'testing A._nonzero_() 
return True 
def _ len__(self): 
print "get length" 
return False 




















if A():# 
该 语句 执行 的 时 候 会 自动 调用 __nonzero__ 
方法 


print "not empty' 
人 LSE: 
print "empty" 





程序 输出 如 下 : 





testing A._nonzero_() 
not empty 


ee | 


建议 27: 连接 字符 串 应 优先 使 用 join 而 不 是 + 


字符 串 处 理 在 大 多 数 编程 程序 语言 中 都 不 可 避免 ， 字符 串 的 连接 也 
征 在 编程 过 程 中 经 名 需要 面 对 的 问题 。Python 中 的 字符 串 与 其 他 一 些 程 
序 语 言 如 C++、Java 有 一 些 不 同 ， 它 为 不 可 变 对 象 ， 一 旦 创建 便 不 能 改 
变 ， 它 的 这 个 特性 直接 影响 到 Python 中 字符 串 连 接 的 效率 。 我 们 首先 来 
看 常见 的 两 种 字符 串 连 接 方法 。 


1) 使 用 操作 符 + 连接 字符 串 的 方法 如 下 : 




















>>> stri1,str2,str3 = 'testing ','string ','concatenation ' 
>>> strit+str2+str3 

"testing string concatenation ' 

>>> 





2) 使 用 join 方 法 连接 字符 串 的 方法 如 下 : 





>>> stri1,str2,str3 = 'testing ','string ','concatenation ' 
Sow Tt join(Lstrirstr2.str3a]} 
"testing string concatenation ' 





思考 这 么 一 个 问题 ， 上 述 两 种 字符 串 连 接 的 方法 除了 使 用 形式 上 的 
不 同 还 有 其 他 区 别 吗 ? 性 能 上 会 不 会 有 所 差异 呢 ? 来 看 下 面 这 个 测试 例 
子 : 








import timeit 


# 

生成 测试 所 需要 的 字符 数组 

strlist=["it is a long value string will not keep in memory" for n in range(100000)] 
#100000 

为 字符 串 连 接 的 数目 ， 下 面 对 应 的 测试 数据 ， 每 次 需要 修改 
































def join_test(): 
tar joilimstrlist} # 

使 用 join 
方法 连接 strlist 
中 的 元 素 并 返回 字符 串 
def plus_test(): 

result = "" 

for i,v in enumerate(strlist): 

result= result+ v # 

使 用 + 
进行 字符 串 连 接 

return result 
if name, == '_ main__"' 





jointimer = timeit.Timer("join test()","from _main _ import join_test") 
print jointimer.timeit(number = 100 
plustimer = timeit.Timer("plus_test()","from _ main _ import plus_test") 


print plustimer.timeit(number = 100) 





给 上 面 的 程序 传 入 一 组 测试 参数 〈 测 试 参数 为 9，10，100，1000， 
10000，100000; 分 别 表示 每 一 次 测试 所 要 连接 的 字符 串 的 数量 ) ， 程 
序 用 于 测试 join_test0 和 plus_testO 这 两 个 方法 在 字符 串 连 接 规模 改变 时 
所 消耗 时 间 的 变化 。 测 试 结果 记录 如 表 3-1 所 示 。 


连接 的 字符 串 数量 join_test 运行 时 间 plus test 运行 时 间 
3 0.0000389002415462 0.000132909158610 





10 0.000126425785025 0.000602548533116 


100 0.00033997190268 0.00357801180055 
1000 0.00274368266135 0.030371768798 


10000 0.379505083573 
100000 0.441415223204 187.267786021 
表 3-1 join_test0 和 plus_testO 连 接 字 符 串 所 耗 时 间 记 录 


表 3-1 可 以 用 图 3-3 所 示 的 X-Y 图 表示 ， 其 中 X 轴 表示 所 要 连接 的 字符 
串 的 数量 ，Y 轴 表示 消耗 的 时 间 。 
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String Size 
图 3-3 join_test0 和 plus_testO 耗 时 比较 图 〈 运 行 时 间 扩 大 10000 倍 ) 


从 分 析 测 试 结果 图 表 我 们 不 难 发 现 ， 分 别 使 用 join0) 方 法 和 使 用 + 操 
作 符 来 连接 字符 串 ，join0) 方 法 的 效率 要 高 于 + 操作 符 ， 特 别 是 字符 串 规 
模 较 大 的 时 候 ，join0 方 法 的 优势 更 为 明显 (如 连接 数 为 100000 的 时 
候 ， 两 者 耗 时 相差 上 百倍 ) 。 造 成 这 种 差别 的 原因 在 哪里 昵 ? 我 们 来 探 
讨 一 下 。 当 用 操作 符 + 连接 字符 串 的 时 候 ， 由 于 字符 串 是 不 可 变 对 象 ， 
其 工作 原理 实际 上 是 这 样 的 : 如果 要 连接 如 下 字符 串 : 
Sl1+S2+S3+...….…...+SN， 执 行 一 次 + 操作 便 会 在 内 存 中 申请 一 块 新 的 内 存 空 
间 ， 并 将 上 一 次 操作 的 结果 和 本 次 操作 的 右 操 作 数 复制 到 新 申请 的 内 存 
空间 ， 即 当 执 行 S1+S2 的 时 候 会 申请 一 块 内 存 ， 并 将 S1、S2 复 制 到 该 内 
存 中 ， 依 次 类 推 ， 如 图 3-4 所 示 。 因 此 ， 在 N 个 字符 串 连接 的 过 程 中 ， 会 
产生 N-1 个 中 间 结 果 ， 每 产生 一 个 中 间 结 果 都 需要 申请 和 复制 一 次 内 
存 ， 总 共 需 要 申请 N-1 次 内 存 ， 从 而 严重 影响 了 执行 效率 。N 越 大 ， 对 
内 存 的 申请 和 复制 的 次 数 越 多 ，+ 操 作 符 的 效率 就 越 低 。 因 此 ， 整 个 字 
符 连 接 的 过 程 中 ， 相 当 于 S1 被 复制 N-1 次 ，S2 被 复制 N-2 次 ....SN 复 制 1 次 
(并 不 完全 等 同 于 S1 复 制 N-1 次 ， 因 为 后 续 复 制 都 是 对 中 间 结 果 的 复 
制 ) ， 所 以 字符 串 的 连接 时 间 复 杂 度 近似 为 OOnA2)。 























S1S2S3 


S1S2S3......S(N-1) 
图 3-4 ”操作 符 + 连接 字符 串 示意 图 


而 当 用 join0) 方 法 连接 字符 串 的 时 候 ， 会 首先 计算 需要 申请 的 总 的 











内 存 空间 ， 然 后 一 次 性 申请 所 需 和 内存 并 将 字符 序列 中 的 每 一 个 元 素 复 制 
到 内 存 中 去 ， 所 以 join 操作 的 时 间 复 杂 度 为 OOn)。 


因此 ， 字 符 串 的 连接 ， 特 别 是 大 规模 字符 串 的 处 理 ， 应 该 尽量 优先 
使 用 join 而 不 是 +。 





建议 28: 格式 化 字符 串 时 尽量 使 用 .format 方 式 而 不 
是 % 


Python 中 内 置 的 % 操 作 符 和 .format 方 式 都 可 用 于 格式 化 字符 串 。 先 
来 看 看 这 两 种 具体 格式 化 方法 的 基本 语法 形式 和 常见 用 法 。 


% 操 作 符 根 据 转 换 说 明 符 所 规定 的 格式 返回 一 串 格式 化 后 的 字符 
串 ， 转 换 说 明 符 的 基本 形式 为 : % [ 转换 标记 ][ 宽度 [. 精确 度 ]] 转 换 类 
型 。 其 中 常见 的 转换 标记 和 转换 类 型 分 别 如 表 3-2 和 表 3-3 所 示 。 如 果 未 
指定 宽度 ， 则 默认 输出 为 字符 串 本 身 的 宽度 。 


表 3-2 ”格式 化 字符 串 转 换 标记 
转换 标记 解释 

表示 左 对 齐 

在 正 数 之 前 加 上 + 
(a space) 表示 正 数 之 前 保留 空格 

在 

RA 


+ 八进制 数 衣 面 显示 去 ('0")， 在 十 六 进 制 前 面 显示 '0x' 或 者 '0X 
0 示 转 换 值 者 位 数 不 够 则 用 0 填充 而 非 默 认 的 空格 


表 3-3 格式 化 字符 串 转 换 类 型 


转换 类 型 解释 

! 转换 为 单个 字符 ， 对 于 数字 将 转换 该 住所 对 应 的 ASCI 码 

转换 为 字符 串 ， 对 于 非 字符 串 对 象 ， 将 默认 调用 st() 函 交 进行 转换 
I 用 repr( 函数 进行 字符 中 转换 

id 转换 为 市 符号 的 十 进 制 数 

I 转换 为 不 市 得 号 的 十 进 制 数 

0 转换 为 不 市 得 号 的 八进制 

换 为 不 这 符号 的 十 六 进 制 

eE 表示 为 科学 计数 法 表示 的 浮 点 数 

fF 转 成 滩 点 数 【小 数 部 分 自然 截断 ) 


如 果 指数 大 于 -4 或 者 小 于 精度 值 则 和 相同， 其 他 情况 与 了 相同 ， 如 果 指 数 大 于 -4 或 者 
3 小 于 精度 值 则 和 相同 ， 其 他 情况 与 相同 





>< 

-< 

A 
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% 操 作 符 格式 化 字符 串 时 有 如 下 几 种 常见 用 法 : 
1) 直接 格式 化 字符 或 者 数值 。 





>>> print "your Score is %06.1f" % 9.5 
your Score is 0009.5 
>>> 





2) 以 元 组 的 形式 格式 化 。 





>>> import math 

>>> itemname = "circumference' 

>>> radius = 

>>> print "the %s of a circle with radius %f is %0.3f " %(itemname,radius,math.p 
i*radius*2 

the circumference of a circle with radius 3.000000 is 18.850 





3) 以 字典 的 形式 格式 化 。 





>>> itemdict = {'itemname':'circumference'，'radi Value math ， pi*radius*2} 
> prin De tne %( 工 itenm i me)s of a circle with 和 Ds se Ue is %(value)90.3f 


% 
uhe Circwy ence of a circle with radius 3.000000 is 18.850 








.format 方 式 格 式 化 字符 串 的 基本 语法 为 :【[[ 填 充 符 ] 对 齐 方式 ][ 符 写 ] 
[#][0][ 宽 度 ][,][. 精 确 度 ][ 转 换 类 型 ]。 其 中 填充 得 可 以 是 除了 “{» 和 “}” 符 
号 之 外 的 任意 符号 ， 对 齐 方式 和 符号 分 别 如 表 3-4 和 表 3-5 所 示 。 转 换 类 
型 跟 % 操 作答 的 转换 类 型 类 似 ， 可 以 参见 表 3-3。 


表 3-4 .format 方 式 格式 化 字符 串 的 对 齐 方式 


对 齐 方式 解 各 
< 表示 左 对 齐 ， 是 大 多 数 对 象 为 默认 的 对 齐 方式 
> 表示 右 对 齐 ， 数 值 默 认 的 对 齐 - 


= 仅 对 数值 类 型 有 效 ， 如 果 有 符 扎 的话， 在 符号 后 数 全 前 进行 填充 ， 如 -000029 
居中 对 齐 ， 用 空格 进行 填充 
表 3-5 .format 方 式 格式 化 字符 串 符号 列表 
符号 解释 
+ 正 数 前 加 +， 负 数 前 加 - 
- 正 数 前 不 如 符号， 负数 前 加 =， 为 数 但 的 默认 形式 
空格 正 数 前 加 空格 ， 负 数 前 加 - 





.format 方 法 几 种 常见 的 用 法 如 下 : 
1) 使 用 位 置 符号 





>>> "The number {0:,} in hex is: {0:#x},the number {1} in oct is {1:#0}".format( 
4746, 45) 








'The number 4,746 in hex is: Oxi28a,the number 45 in oct is Qo055' 
>>> 

# 

其 中 {0} 

表示 format 

方法 中 对 应 的 第 一 个 参数 ，{1} 

表示 format 


方法 对 应 的 第 二 个 参数 ， 依 次 递 推 





2) 使 用 名 称 。 





>>> print "the max number is {max},the min number is {min},the average number is 
{average:0.3f}".format (max=189,min=12.6,average=23.5) 
the max number is 189,the min number is 12.6,the average number is 23.500 








>>> class Customer(object): 

本 二 所 def _ init__(self,name,gender,phone): 
self.name = name 
self.gender = gender 
self.phone = phone 

def _ str__(self): 
Ei return 'Customer({self.name}, {self.gender}, {self.phone})'.format 
(self=self) 
# 

通过 str() 

函数 返回 格式 化 的 结果 

>>> str(Customer("Lisa","Female","67889")) 


'Customer (Lisa,Female, 67889)'" 
>>> 





4) 格式 化 元 组 的 具体 项 。 





>>> point = (1,3) 
>>> 'X:{0[0]};Y:{0[1]}'.format(point) 
"KY 





在 了 解 了 两 种 字符 串 格 式 的 基本 用 法 之 后 我 们 再 回 到 本 市 开 涉 提出 
0 i 


理由 一 : format 方 式 在 使 用 上 较 % 操 作 符 更 为 灵活 。 使 用 format 方 式 


时 ， 参 数 的 顺序 与 格式 化 的 顺序 不 必 完 全 相同 。 如 : 





>>> "The number {1} in hex is: {1:#x},the number {0} in oct is {0:#0}".format(474 
6,45) 
"The number 45 in hex is: Qx2d,the number 4746 in oct is 0011212， 





上 例 中 格式 化 的 顺序 为 {1}，{0}， 其 对 应 的 参数 申明 的 顺序 却 相 
{1} 与 45 对 应 ， 而 用 % 方 法 需要 使 用 字典 形式 才能 达到 同样 的 目 


理由 二 : format 方 式 可 以 方便 地 作为 参数 传递 。 





>>> weather=[("Monday", "rain"), ("Tuesday", "sunny"), ("Wednesday", "sunny"), ("Thurs 
day", "rain"), ("Friday", "cloudy" 

>>> formatter = "Weather of '{0[90]}' is '{0[1]}'".format 

>>> for item in map(formatter,weather):#format 


方法 作为 第 一 个 参数 传递 给 map 
print item 


Weather of 'Monday' is 'rain' 
Weather of 'Tuesday' is 'sunny' 
Weather of 'Wednesday' is 'sunny' 
Weather of 'Thursday' is 'rain' 
Weather of 'Friday' is "cloudy' 





理由 三 : % 最 终 会 被 .format 方 式 所 代 蔡 。 这 个 理由 可 以 认为 是 最 直 
接 的 原因 ， 根 据 Python 的 官方 文档 
(http://docs.python.org/2/library/stdtypes.html#string- 
formatting〉，.format() 方 法 最 终 会 取代 %， 在 Python3.0 中 .format 方 法 是 
推荐 使 用 的 方法 ， 而 之 所 以 仍然 保留 % 操 作 符 是 为 了 保持 问 后 兼容 。 


理由 四 : % 方 法 在 茶 些 特殊 情况 下 使 用 时 需要 特别 小 心 。 





>> itemname =("mouse", "mobilephone", "cup" 
>>> print "itemlist are %s" %(itemname) # 
人 

















H% 
方法 格式 化 元 组 
Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 
TypeError: not all arguments converted during string formatting 
>>> 


>>> print "itemlist are %s" %(itemname,) # 
注意 后 面 的 符号 ， 
itemlist are ('mouse', 'mobilephone', 'cup') 


>>> print "itemlist are {}".format(itemname) # 


使 用 form 
方法 直接 格式 化 不 会 抛 出 异常 


itemlist are ('mouse', 'mobilephone', 'cup') 




















上 述 例子 中 本 意 是 把 itemname 看 做 一 个 整体 来 进行 格式 化 ， 但 直接 
使 用 时 却 抛 出 TypeError， 对 于 9% 直 接 格 式 化 字符 的 这 种 形式 ， 如 果 字 符 
本 刁 为 元 组 ， 则 需要 使 用 在 % 使 用 (itemname,) 这 种 形式 才能 避免 错误 ， 


建议 29: 区 别 对 符 可 变 对 象 和 不 可 变 对 象 


Python 中 一 切 皆 对 象 ， 每 一 个 对 象 都 有 一 个 唯一 的 标示 符 
(id0) 、 类 型 (Cope? 以 及 值 。 对 象 根据 其 值 能 否 修改 分 为 可 变 对 象 
和 不 可 变 对 象 ， 其 中 数字 、 字 符 串 、 元 组 属于 不 可 变 对 象 ， 字 典 以 及 列 
表 、 字 节 数组 属于 可 变 对 象 。 而 “菜鸟 ”常常 会 试图 修改 字符 串 中 某 个 字 
符 。 看 下 面 这 个 例子 : 








teststr = "I a a pytlon string" 
teststr[11]= 
print 人 





字符 串 为 不 可 变 对 象 ， 任 何 对 字符 串 中 采 个 字符 的 修改 都 会 抛 出 允 
常 。 修 改 字符 串 中 茶 个 字符 可 以 采用 如 下 方式 : 





>>> teststr = "I am a pytlon string" 
>>> import arra 

>>> a = Qnray: array('c',teststr) 

>>> a[10]= 

>>> a 

array('c', 'I am a Python string') 
>>> a.tostring() 

'I am a Python string' 





再 来 看 下 面 一 段 程序 : 





class Fuen tobecey: 
def _ (self,name,course=[]): 
se1f. Re name 
self.course=course 
def addcourse(self,coursename): 
self .course.append(coursename) 
def printcourse(self): 
for item in self.course: 
rint item 
stuA=Student ("Wang yi") 
stuA.addcourse("English") 
stuA. addcourse( Math ) 
print stuA.name +"'s course:" 
stuA. printcourse( ) 
print "----------------------- 机 
stuB=Student("Li san") 
StuB.addcourse("Chinese") 
stuB.addcourse("Physics") 
print stuB.name +"'s course:" 
stuB.printcourse() 








述 代码 清单 描述 的 是 两 个 不 同 的 学 生 选 择 不 同 课程 的 场景 。 这 个 


程序 有 什么 问题 吗 ? 通过 运行 程序 得 到 如 下 输出 结果 : 





inese 








你 会 证 异地 发 现 Li san 同 学 所 选 的 多 了 English 和 Math 两 门 课程 。 这 
是 怎么 回 事 呢 ?” 通 过 查看 id(stuA.course) 和 id(stuB.course)， 我 们 发 现 这 
两 个 值 是 一 样 的 ， 也 就 是 说 在 内 存 中 指 的 是 同一 块 地 址 ， 但 stuA 和 stuB 
本 和 映 却 是 两 个 不 同 的 对 象 。 在 实例 化 这 两 个 对 象 的 时 候 ， 这 两 个 对 象 被 
分 配 了 不 同 的 内 存 空间 ， 并 且 调 用 initO 函 数 进 行 初始 化 。 但 由 于 initO 函 
数 的 第 二 个 参数 是 个 默认 参数 ， 默认 参数 在 函数 被 调用 的 时 候 仅 仅 被 评 
估 二 人 恢 ; 以 后 都 会 使 用 第 一 次 评估 的 结果 ， 因 此 实际 上 对 象 空 间 里 面 
course 所 指 同 的 是 list 的 地 址 ， 每 次 操作 的 实际 上 是 list 所 指 癌 的 具体 列 
表 。 这 是 我 们 在 将 可 变 对 象 作为 函数 默认 参数 的 时 候 要 特别 警惕 的 问 
题 ， 对 可 变 对 象 的 更 改 会 直接 影响 原 对 象 。 要 解决 上 述 例子 中 的 问题 ， 
最 好 的 方法 是 传 入 None 作 为 默认 参数 ， 在 创建 对 象 的 时 候 动态 生成 列 
表 。 具 体 代码 如 下 : 




















self.name=name 








对 于 可 变 对 象 ， 还 有 一 个 问题 是 需要 注意 的 。 我 们 通过 以 下 例子 来 
说 明 : 





st1=['a', 'b','c'] 
st2 = list1 

> st1i.append('d') 
本本 

['a', 'b', 'c', 'd'] 

>>> list2 


ist2 
te 
al by 





', 1d'] 
t1[:] 
Di 3 所内 
ve('a') 


>>> ists 
['b', 'c', 'd'] 


>>> id(list2) 
13418864 


上 面 的 例子 中 对 list1 的 切片 操作 实际 会 重新 生成 一 个 对 象 ， 因 为 切 
片 操作 相当 于 浅 拷贝 ， 因 此 对 list3 的 操作 并 不 会 改变 listL 和 1list2 本 身 。 我 
们 再 来 看 以 下 不 可 变 对 象 的 简单 例子 : 


a=1 
a+=2 
print a 








我 们 会 发 现 此 时 a 的 值 变 为 3， 这 是 理所当然 的 ， 可 是 仔细 一 想 a 是 
属于 数值 类 型 ， 是 不 可 变 对 象 ， 怎 么 会 发 生 改 变 呢 ? 实际 上 Python 中 变 
量 a 存放 的 是 数值 1 在 内 存 中 的 地 址 ， 数 值 1 本 里 才 是 不 可 变 对 象 。 在 上 
面 的 过 程 中 所 改变 的 是 a 所 指 回 的 对 象 的 地 址 ， 数 值 1 并 没有 发 生 改 变 ， 
当 执 行 a+=2 的 时 候 重 新 分 配 了 一 块 内 存 地 址 存放 结果 ， 并 将 a 的 引用 改 
为 该 内 存 地 址 ， 而 对 象 1 所 在 的 内 存 空间 会 最 终 被 垃圾 回收 费 回 收 。 上 
述 分 析 的 图 示 如 图 3-5 所 示 。 





a=l 
上 六 一 一 一 一 


/A 
We 


at+=2 


a=3 
人 3 


图 3-5 a 在 内 存 中 的 变化 示意 图 
通过 id() 函 数 分 析 也 可 以 证 实 上 述 变 化 过 程 。 








>>> id(a 
12184696 
Sw 





es | 
©@id(a) 
的 值 发 生 改变 
1218467 





12184672 








id0 函 数 分 析 也 可 以 证 实 上 述 变 化 过 程 ， 对 于 不 可 变 对 象 来 说 ， 当 
我 们 对 其 进行 相关 操作 的 时 候 ，Python 实 际 上 仍然 保持 原来 的 值 而 是 重 
新 创建 一 个 新 的 对 象 ， 所 以 字符 串 对 象 不 允许 以 索引 的 方式 进行 赋值 ， 
当 有 两 个 对 象 同时 指向 一 个 字符 串 对 象 的 时 候 ， 对 其 中 一 个 对 象 的 操作 
并 不 会 影响 男 一 个 对 象 。 








>>> stri = "hello world" 
str1i 


>>> str1 = stri[:-5] 


'hello world' 
>>> 


二 一 


建议 30: 口 、0 和 人 :一致 的 容 堪 初始 化 形式 


列表 是 一 个 很 有 用 的 数据 结构 ， 它 在 Python 中 属于 可 变 对 象 ， 列 表 
中 的 元 素 没 有 限制 ， 可 以 重复 可 以 从 套 ， 操 作 上 文 持 对 单个 元 际 的 读 取 
和 修改 ， 还 支持 分 片 、 排 序 、 插 入 、 删 除 等 。 由 于 其 灵活 性 ， 在 实际 应 
用 中 经 常会 看 到 它 的 喘 影 。 下 面 的 程序 过 历 列表 中 的 每 个 元 素 ， 并 根据 
要 求 ( 去 挥 蛙 词 所 包含 的 空格 后 首 字母 是 否 为 大 写 ) 生成 一 个 新 的 


list。 














那么 ， 这 上段 程序 有 什么 问题 吗 ? 就 程序 本 里 来 说 并 没有 什么 明显 的 
问题 ， 但 有 更 好 的 实现 方式 。 这 就 是 列表 解析 (list comprehension) 所 
涉及 的 内 容 了 。 先 来 了 解 一 下 列表 解析 的 基本 知识 点 。 


列表 解析 的 语法 为 : [expr for iter_item in iterable if cond_expr]。 它 
迭代 iterable 中 的 每 一 个 元 素 ， 当 条 件 满 足 的 时 候 便 根据 表达 式 expr 计 算 
的 内 容 生 成 一 个 元 素 并 放 入 新 的 列表 中 ， 依 次 类 推 ， 并 最 终 返 回 整 个 列 
表 s 症 语 法 上 ; 它 等 价 于 下 面 代码 段 : 





其 中 条 件 表 达 式 不 是 必需 的 ， 如 果 没 有 条 件 表达 式 ， 就 直接 将 expr 
中 计算 出 的 元 素 加 入 List 中 。 列 表 解 析 的 使 用 非常 灵活 。 


1) 文 持 多 重 艇 套 。 如 果 需 要 生成 一 个 二 维 列表 可 以 使 用 列表 解析 
嵌 套 的 方式 。 示 例如 下 : 


>>> nested list = [['Hello', 'World'], ['Goodbye', 'World']] 

>>> nested_list = [[s.upper() for s in xs] for xs in nested_list] 
>>> print nested_list 

[['HELLO', 'WORLD'], ['GOODBYE', 'WORLD']] 

>>> 





2) 文 持 多 重 迭 代 。 下 面 的 例子 中 a、b 分 别 对 应 两 个 列表 中 的 元 
素 ，[(a,b) for a in ['a','1',1,2] for b in ['1',3,4,'b'"] 让 a != b] 表 示 : 列表 
[a,1,12] 和 [1,3,4,b] 依 次 求 香 卡 儿 积 之 后 并 去 邱 元 和 素 值 相等 的 元 组 之 
后 所 剩 下 的 元 组 的 集合 。 





>>> a b) for a in ['a 1 2 a b'] if a != b] 
[个 是 1 (a 3 Ca re Ci 3) (1 4), ('1', 'b'), (1 
(0 (2 全 (27 3), (274) (2, 50] 








3) 列表 解析 语法 中 的 表达 式 可 以 是 简单 表达 式 ， 也 可 以 是 复杂 表 
达 了 式 ， 甚 至 是 函数 。 





>>> def f(v): 
if v%2 == 0: 
V = Vv**2 
else: 
YY+ 
return V 


[f(v) for v in [2,3,4,-1] if v>0] # 
表 过 式 可 以 是 画 数 
[4，4， 16] 
Ws [V** if v%2 ==0 else v+1 for V in [2,3,4,-1] if v>0]# 
从 
[4 4, 16] 





4) 列表 解析 语法 中 的 iterable 可 以 是 任意 可 和 迭代 对 象 。 下 面 的 例子 
中 把 文件 句柄 当做 一 个 可 运 代 对 象 ， 可 轻易 读 出 文件 内 容 。 





fh = open(" Se XE 

result = [i for i in “fh if "abc" in i] # 
文件 句柄 可 以 人 近代 居间 

print result 





了 解 完 列表 解析 的 基本 知识 之 后 ， 本 节 开 头 的 例子 你 应 该 知道 怎么 
> 
孚 析 呢 ? 


1) 使 用 列表 解析 更 为 直观 清晰 ， 代 码 更 为 简洁 。 本 市 开头 的 例子 
改 用 列表 解析 ， 直 接 可 将 代码 行 数 减少 为 2 行 ， 这 在 大 型 复杂 应 用 程序 
中 尤为 重要 ， 因 为 这 意味 着 潜在 的 缺陷 较 小 ， 同 时 代码 清晰 直观 ， 更 容 
易 阅 读 和 理解 ， 可 维护 性 更 强 。 


2) 列表 解析 的 效率 更 高 。 本 节 开 头 的 例子 用 两 种 不 同方 法 实现 后 
进行 测试 ， 测 试 结果 表明 列表 解析 在 时 间 上 有 一 定 的 优势 ， 这 主要 是 因 
为 普通 循环 生成 List 的 时 候 一 般 需 要 多 次 调用 append0 函 数 ， 增 加 了 额外 
的 时 间 开 销 。 需 要 说 明 的 是 对 于 大 数据 处 理 ， 列 表 解 析 并 不 是 一 个 最 佳 
选择 ， 过 多 的 内 存 消耗 可 能 会 导致 MemoryError。 


除了 列表 可 以 使 用 列表 解析 的 语法 之 外 ， 其 他 几 种 内 置 的 数据 结构 
也 支持 ， 比 如 元 组 (tuple〉 的 初始 化 语法 是 (expr for iter item in 
iterable if cond_expr) ， 而 集合 (set) 的 初始 化 语法 是 {expr for iter_item 
in iterable if cond_expr}， 甚 至 字典 (dict) 也 有 类 似 的 语法 {expr1, expr2 
for iter_item in iterable if cond_expr}。 它 们 的 使 用 类 似 列 表 解 析 ， 但 需要 
注意 ， 因 为 元 组 也 适用 赋值 语句 的 装 箱 和 拆 箱 机 制 ， 所 以 需要 注意 
与 (1,) 是 不 同 的 ; 前 者 为 数字 1， 后 者 才 代 表 元 组 (注意 1 后 面 

3 




















>>> type((1)) 
<type 'int'> 
>>> type((1,)) 
<type 'tuple'> 
i 





此 外 ， 当 函数 接受 一 个 可 过 代 对 象 参数 时 ， 可 以 使 用 元 组 的 简写 方 


二 





>>> def foo(a): 
for i in al 
print i 


>>> foo([1, 2, 3]) 


> foo(i for i in range(3) if i % 2 == 0) 


GOV wmN 
V 





建议 31: 记 住 函数 传 参 既 不 是 传 值 也 不 是 传 引用 


Python 中 的 函数 参数 到 底 是 传 值 还 是 传 引 用 呢 ? 这 是 许多 人 在 学 习 
过 程 中 会 纠结 的 一 个 问题 ， 很 多 论坛 也 有 这 样 的 讨论 。 总 结 来 说 基本 有 
3 个 观点 : 传 引用 ， 传 值 ， 可 变 对 象 传 引用 ， 不 可 变 对 象 传 值 。 这 3 个 观 
点 到 底 哪个 正确 呢 ? 我 们 逐一 讨论 。 


1) 传 引 用 。 先 来 看 一 个 非常 简单 的 例子 (请 不 要 因为 例子 太 简 单 
而 不 以 为 然 ， 小 故事 往往 部 含 大 道理 ， 它 照样 能 说 明 问 题 〉。 














示例 一 : 





>>> def inc(n) : 

print id(n) 
= n+1 

print id(n) 

和 

>>> id(n) 

34450040 

> 


34450040 # 
修改 之 前 的 n 
值 

34450028 # 
修改 之 后 的 n 


可 

值 

>>> print n 
3 

>>> 





按照 传 引用 的 概念 ， 上 面 的 例子 期 望 的 输出 应 该 是 4， 并 且 inc0 函 
数 里 面 执行 操作 n=n+1 的 前 后 n 的 id 值 应 该 是 不 变 的 。 可 是 事实 是 不 是 这 
样 的 呢 ? 非 也 ， 从 输出 结果 来 看 n 的 值 还 是 不 变 ， 但 id(n) 的 值 在 函数 体 
前 后 却 不 一 怪 。 显 然 ， 传 引用 这 个 说 法 是 不 恰当 的 。 


2) 传 值 。 来 看 一 个 示例 。 


示例 二 : 

















>>> def change_list(orginator_list): 
print "orginator list is:",orginator_list 
new_list = orginator_list 
new_list.append("I am new" 
print "new list is:", 
return new_ list 


) 


new_list 


2 

>>> orginator_list = ['a','b','c'] 

>>> new_list = change Hst(orginetor. list) 
orginator list is: [ sy 

hew 1ist Lsr,. 工人 bb a 'I am new'] 


'I am new'] 
> print orgifator list 
i am new'] 


Vy 一 
V Y 
Ve EF 








传 值 通 俗 来 讲 就 是 这 个 意思 : 你 在 内 存 中 有 一 个 位 置 ， 我 也 有 一 个 
位 置 ， 我 把 我 的 值 复 制 给 你 ， 以 后 你 做 什么 惑 跟 我 没关系 了 ， 我 是 我 ， 
你 是 你 ， 咀 俩 井 水 不 犯 河水 。 可 是 上 面 的 程序 输出 根本 就 不 是 这 么 一 回 
事 ， 显 然 change_listO) 函 数 没 有 遵守 约定 ， 调 用 该 函数 之 后 orginator list 
也 发 生 了 改变 ， 这 明显 侵犯 了 orginator_list 的 权利 。 这 么 看 来 传 值 这 个 
说 法 也 不 合适 。 


3) 可 变 对 象 传 引 用 ， 不 可 变 对 象 传 值 。 这 个 说 法 最 徘 谱 ， 很 多 人 
也 是 这 么 理解 的 ， 但 这 个 说 法 到 请 是 否 准 确 呢 ?再 来 看 一 个 示例 。 


示例 三 














>>> def change_ me(org_list): 
EC print id(org_list) 
new_list = org_list 
print id(new_list) 
if len(new_list)>5: 
new_list = ['a','b','c'] 
for i,e in enumerate(new_ 1ist): 
if isinstance(e, list): 
Cok new_list[i]="***" # 
将 元 素 为 ]ist 
类 型 的 替换 为 *** 
print new_list 
print id(new_ list) 


>>> 





传 入 参数 org_list 为 列表 ， 属 于 可 变 对 象 ， 按 照 可 变 对 象 传 引用 的 理 
解 ，new_list 和 org_list 指 同 同 一 块 内 存 ， 因 此 两 者 的 id 值 输出 一 致 ， 任 
何 对 new_list 所 执行 的 内 容 的 操作 会 直接 反应 到 org_list， 也 就 是 说 修改 
new_jlist 会 导致 org_list 的 直接 修改 ， 对 吧 ? 来 看 测试 例子 。 








Sm testte [Ed 人 2 
>>> Change mettsst) #test1 
的 元 素 个 数 小 于 
35260216 
35260216 

* rxx*!, 6] 

#test1 

中 所 有 list 





类 型 的 元 素 都 蔡 换 为 了 *** 
35260216 


>>> print test1 
上 实 央 | 
’ ’ 7 
>>> test2=[1,2,3,4,5,6, [1]] 
es 
中 元 素 的 个 数 大 于 5 
>>> change_me(test2) 
35260136 
35260136 
‘a', 'b', 'c'] 
35250664 #new_list 
i 
值 发 生 了 改变 
>>> print test2 #test2 
并 没有 发 生 改变 
[1, 2, 3, 4, 5, 6, [1]] 
>>> 











对 于 test1、new_list 和 org_list 的 表现 和 我 们 理解 的 传 引 用 确实 一 
致 ， 最 后 test1 被 修改 为 [1，***"，***'，6]， 但 对 于 输入 test2、new_list 和 
or&_list 的 id 输出 在 进行 列表 相关 的 操作 前 是 一 致 的 ， 但 操作 之 后 
new_list 的 id 值 却 变 为 35250664， 整 个 test2 在 调用 函数 change_me0) 后 却 
没有 发 生 任 何 改变 ， 可 是 按照 传 引用 的 理解 期 望 输出 应 该 是 ['a','b','c']， 
似乎 可 变 对 象 传 引 用 这 个 说 法 也 不 恰当 。 


那么 Python 函 数 中 参数 传递 的 机 制 到 底 是 怎么 样 的 ? 要 明日 这 个 概 
念 ， 首 先 要 理解 : Python 中 的 赋值 与 我 们 所 理解 的 C/C++ 等 语言 中 的 赋 
值 的 意思 并 不 一 样 。 如 果 有 如 下 语句 : 





a =5 
，b = a 
，b=7 ， 


我 们 分 别 来 看 一 下 在 C/C++ 以 及 Python 中 是 如 何 赋值 的 。 


如 图 3-6 所 示 ，C/C++ 中 当 执 行 b=a 的 时 候 ， 在 内 存 中 申请 一 块 内 存 
并 将 a 的 值 复制 到 该 内 存 中 ; 当 执 行 b=7 之 后 是 将 b 对 应 的 值 从 5 修改 为 
ga 





b=7 导 致 6 的 值 从 5 修改 到 7 


ba 会 将 4 的 信 复 制 到 b 了 所 在 的 内 在 室 间 





图 3-6 ”C/C++ 赋值 时 内 存 的 变化 


但 在 Python 中 赋值 并 不 是 复制 ，b=a 操 作 使 得 b 与 a 引 用 同一 个 对 
象 。 而 b=7 则 是 将 b 指 向 对 象 7， 如 图 3-7 所 示 。 





b-7 会 在 内 存 中 重新 创建 


一 块 内 存 存放 7 并 指 b 指 站 3 5 
EE 
b 
b=a 使 得 8 与 b 同 时 指 站 5 所 在 的 内 存 


图 3-7 ”Python 中 赋值 语句 对 应 的 内 存 变化 
我 们 通过 以 下 示例 来 验证 上 面 所 述 的 过 程 : 


























Ws 和 芝 海 
>>> id(a) 
34450016 
>>> = 





值 发 生 改变 
34449992 
>>> id(a) 
34450016 


从 输出 可 以 看 出 ，b=a 赋 值 后 b 的 id0 输 出 和 a 一 样 ， 但 b=7 操 作 后 b 指 
向 另外 一 块 空间 。 可 以 简单 理解 为 ，b=a 传 递 的 是 对 象 的 引用 ， 其 过 程 
类 似 于 贴 “标签 "，5 和 7 是 实 实在 在 的 内 存 空间 ， 执 行 a=5 相 当 于 申请 一 
块 内 存 空间 代表 对 象 5 并 在 上 面 贴 上 标签 a， 这 样 a 和 5 便 绑 定 在 一 起 了 。 
而 b=a 相 当 于 对 标签 创 建 了 一 个 别名 ， 因 此 它们 实际 都 指向 5。 但 b=7 操 
作 之 后 标签 重新 贴 到 7 所 代表 的 对 象 上 去 了 ， 而 此 时 5 仅 有 标签 a。 








理解 了 上 述 背 景 ， 再 回头 来 看 看 前 面 的 例子 就 很 好 理解 了 。 对 于 示 
例 一 ，n=n+1， 由 于 n 为 数字 ， 是 不 可 变 对 象 ，n+1 会 重新 申请 一 块 内 
存 ， 其 值 为 n+1， 并 在 函数 体 中 创建 局 部 变量 n 指 癌 它 。 当 调用 完 函 数 
inc(nD) 之 后 ， 函 数 体 中 的 局 部 变量 在 函数 外 不 并 不 可 见 ， 此 时 的 n 代 表 函 
数 体外 的 命名 空间 所 对 应 的 n， 值 还 是 3。 而 在 示例 三 中 ， 当 org_list 的 长 
度 大 于 5 的 时 候 ，new list ”= [abc] 操 作 重 新 创建 了 一 块 内 存 并 将 
new_list 指 向 它 。 当 传 入 参数 为 test2=[1,2,3,4,5,6,[1]] 的 时 候 ， 函 数 的 执行 
并 没有 改变 该 列表 的 值 。 


因此 ， 对 于 Python 函数 参数 是 传 值 还 是 传 引 用 这 个 问题 的 答案 是 : 
都 不 是 。 正 确 的 叫 法 应 该 是 传 对 象 (call by object) 或 者 说 传 对 象 的 引 
用 《〈call-by-objectrreference) 。 函 数 参 数 在 传递 的 过 程 中 将 整个 对 象 传 
入 ， 对 可 变 对 象 的 修改 在 函数 外 部 以 及 内 部 都 可 见 ， 调 用 者 和 被 调用 者 
之 间 共 享 这 个 对 象 ， 而 对 于 不 可 变 对 象 ， 由 于 并 不 能 真正 被 修改 ， 因 
此 ， 修 改 往往 是 通过 生成 一 个 新 对 象 然 后 赋值 来 实现 的 。 





























建议 32: 警惕 默认 参数 潜在 的 问题 


默认 参数 可 以 给 函数 的 使 用 带 来 很 大 的 元 活性 ， 当 函数 调用 没有 指 
定 与 形 参 对 应 的 实 参 时 就 会 自动 使 用 默认 参数 。 





>>> def appendtest(newitem, lista = []): # 
默认 参数 为 空 列表 


>>> 
>>> appendtest('a',['b',2,4,[1,2]]) 
39644216 

39644216 

['b', 2, 4, [1, 2], 'a'] 

>>> 





现在 请 读者 思考 这 么 一 个 问题 ， 如 果 第 二 个 参数 采取 默认 参数 ， 连 
续 调用 两 次 appendtest(1)、appendtest('a”)， 函 数 的 返回 值 是 多 少 ? 期 望 的 
结果 应 该 是 [1] 和 ['a]， 对 吧 ? 可 是 实际 情况 却 输出 了 [1 和 [1， 'a]。 那 么 
这 是 什么 原因 呢 ? 


def 在 Python 中 是 一 个 可 执行 的 语句 ， 当 解释 器 执行 def 的 时 候 ， 默 
认 参 数 也 会 被 计算 ， 并 存在 函数 的 .func_defaults 属 性 中 。 由 于 Python 中 
函数 参数 传递 的 是 对 象 ， 可 变 对 象 在 调用 者 和 被 调用 者 之 间 共 享 ， 因 此 
当 首 次 调用 appendtest(1) 的 时 候 ，[] 变 为 [1]， 而 再 次 调用 的 时 候 由 于 默 
认 参 数 不 会 重新 计算 ， 在 [1] 的 基础 上 便 变 为 了 [1,'a]。 我 们 可 以 通过 查 
看 函数 的 func_defaujlts 来 确认 这 一 点 。 








>>> appendtest(1) 
39022960 
39022960 
[1] 
>>> appendtest .func_defaults # 
第 一 次 调用 后 默认 参数 变 为 [1] 
([1],) 
>>> appendtest('a') 
39022960 
39022960 
[1, 'a'] 
>>> appendtest .func_defaults 
# 

















经 过 第 二 次 调用 
变 为 [1， 


*] 

([1, 'a'],) 

>>> 

>>> appendtest .func_defaults[9][:] = [] 


可 以 直接 修改 func_defaults 
属性 


>>> appendtest.func_defaults 
([],) 








如 琳 不 想 让 默认 参数 所 指 回 的 对 象 在 所 有 的 函数 调用 中 被 共 圣 ， 而 
古 在 函数 调用 的 过 程 中 动态 生成 ， 可 以 在 定义 的 时 候 使 用 None 对 象 作为 
占 位 符 。 因 此 本 市 开头 的 例子 应 该 修正 为 如 下 形式 : 








> def ppenotest (newsten lista = None):# 
i Ssh 
st None: 
1 区 [] 
Ea append(neyiten) 
return list 





最 后 以 一 个 问题 结束 本 节 : 假设 reportO 函 数 需要 传 入 当前 系统 的 时 
间 并 做 一 些 处 理 ， 下 面 两 种 参数 传递 方式 哪 种 正确 呢 ? 读者 应 该 知道 答 
案 了 ! 





>>> import time 
>>> def report(when = time.time()): 
pass 


>>> def report(when = time.time): 


一 


建议 33: 慎 用 变 长 参数 


Python 文 持 可 变 长 度 的 参数 列表 ， 可 以 通过 在 函数 定义 的 时 候 使 用 
*args 和 **#kwargs 这 两 个 特殊 语法 来 实现 〈args 和 kwargs 可 以 蔡 换 成 任意 
你 喜欢 的 变量 名 ) 。 先 来 看 两 个 可 变 长 参数 使 用 的 例子 。 


1) 使 用 *args 来 实现 可 变 参数 列表 : *args 用 于 接受 一 个 包装 为 元 组 
形式 的 参数 列表 来 传递 非 关 键 字 参数 ， 参 数 个 数 可 以 任意 ， 如 下 例 所 
钞 。 











def SumFu 人 rgsy: 





2) 使 用 **kwargs 接 受 字 — 典 形式 的 关键 字 参 数列 表 ， 其 中 字典 的 键 
值 对 分 别 表 示 不 可 变 参数 的 参数 名 和 值 。 如 下 例 中 apple 表 示 参 数 名 ， 而 
fruit 为 其 对 应 的 value， 可 以 是 一 个 或 者 多 个 键 值 对 。 





def c ate S90 Fy- tal 06 eC a 让 3 
fo args.items(): 
pF Ye 了 is a KI ne of 人 “for at(nam Value e) 
tegory_ta De e(apple "ruit’ ot 'vegeta ab1e ',Python = 'programming language') 
category_table(BMW = vcar') 





如 果 一 个 函数 中 同时 定义 了 普通 参数 、 默 认 参 数 ， 以 及 上 述 两 种 形 
式 的 可 变 参数 ， 那 么 使 用 情况 又 是 怎样 的 呢 ? 来 看 一 个 简单 的 问题 。 











对 于 上 面 的 函数 下 面 几 种 调用 方式 哪些 是 不 正确 的 呢 ? 





axis(2,3, "test1", "test2","test3", my_kwarg="test3") 


t 
t_axis(2,3, my_kwarg="test3") 
et_axis(2,3, "testi",my_kwarg="test3") 
t 
t 


et_axis("test1", "test2", xlabel="new x",ylabel = "new_y", my_kwarg="test3") 
Set_axis(2, "test1"， "test2",ylabel = "new y", my_kwarg="test3") 








答案 是 : 上 面 的 所 有 调用 方式 都 是 合法 的 ! 实际 上 在 4 种 不 同形 式 
的 参数 同时 存在 的 情况 下 ， 会 首先 满足 普通 参数 ， 然 后 是 默认 参数 。 如 
果 剩 余 的 参数 个 数 能 够 覆盖 所 有 的 默认 参数 ， 则 默认 参数 会 使 用 传递 时 
候 的 值 ， 如 标注 QD 处 的 函数 在 调用 的 时 候 xlabel 和 ylabel 的 值 分 别 
为 “test1” 和 “test2”; 如 果 剩 余 参 数 个 数 不 够 ， 则 尽 最 大 可 能 满足 默认 参 
数 的 值 ， 标 注 @ 中 xlabel 值 为 *test1”， 而 ylabel 则 使 用 默认 参数 y。 除 此 之 
外 其 余 的 参数 除了 键 值 对 以 外 所 有 的 参数 都 将 作为 args 的 可 变 参数 ， 
kwargs 则 与 键 值 对 对 应 。 那 么 ， 为 什么 要 慎 用 可 变 长 度 参 数 呢 ? 原因 如 
下 : 


1) 使 用 过 于 灵活 。 上 面 的 示例 set_axis0) 随 随便 便 就 能 写 出 好 几 种 
不 同形 式 的 调用 方式 。 在 混合 普通 参数 或 者 默认 参数 的 情况 下 ， 变 长 参 
数 意味 着 这 个 函数 的 签名 不 够 清晰 ， 存 在 多 种 调用 方式 。 如 果 调 用 者 需 
要 花费 过 多 的 时 间 来 研究 你 的 方法 该 如 何 调用 ， 显 然 这 并 不 是 一 种 值得 
提倡 的 方式 ， 即 使 你 认为 它 很 炫 ， 很 蜗 端 大 气 上 档次 ， 但 在 团队 合作 开 
发 的 项 目 中 ， 干 万 不 要 有 这 种 想法 ， 团 队 开 发 不 是 你 的 个 人 苋 搁 场 ， 代 
码 编写 从 菏 种 程度 上 说 也 是 一 种 沟通 ， 清 晰 准确 是 一 个 很 重要 的 指标 。 
另外 变 长 参数 可 能 会 破坏 程序 的 健壮 性 。 


2) 如 果 一 个 函数 的 参数 列表 很 长 ， 虽 然 可 以 通过 使 用 *args 和 
**kwargs 来 简化 函数 的 定义 ， 但 通常 这 意味 着 这 个 函数 可 以 有 更 好 的 实 
现 方 式 ， 应 该 被 重 构 。 前 面 的 例子 中 SumFun(*args) 如 果 改 为 def 
Sum(sedq)， 在 函数 调用 之 前 将 需要 传递 的 参数 保存 在 一 个 序列 中 ， 如 seq 
= (12,3,4,5,6,7)， 再 将 序列 seq 作 为 参数 传 入 Sum 中 也 是 一 个 不 错 的 选 
择 。 同 样 如 果 使 用 **kwargs 的 目的 仅仅 是 为 了 传 入 一 个 字典 ， 这 将 是 一 
个 非常 糟 糙 的 选择 。 


3) 可 变 长 参数 适合 在 下 列 情况 下 使 用 不仅 限于 以 下 场景 ) : 
-为 函数 添加 一 个 装饰 右 。 


























# ... 
return fun(*args,**kwargs) 
return new 


>>> 





如果 参数 的 数目 不 确定 ， 可 以 考虑 使 用 变 长 参数 。 如 配置 文件 
test.cfg 内 容 如 下 : 





Defaults] 

name = test 

version = 1.0 

platform = windows 

func(**kwargs) 

于 读 取 一 些 配置 文件 中 的 值 并 进行 全 局 变量 初始 化 。 
from ConfigParser import ConfigParser 
conf = ConfigParser() 

conf .read( 'test.cfg') 

conf_ dict = dict(conf .items(' Defaults')) 
def func(**kwargs): 
kwargs.update(conf_dict) 

global name 


























name = kwargs.get('name') 
global version 
version = kwargs.get('version') 


global platform 
platform = kwargs.get('platform') 








-用 来 实现 函数 的 多 态 或 者 在 继承 情况 下 子 类 需要 调用 父 类 的 某 些 
方法 的 时 候 。 





>>> class A(object): 
def somefun(self,p1,p2): 
pass 


>>> class B(A): 
def myfun(self,p3,*args,**kwargs): 
super(B, self).somefun(*args,**kwargs) 


>>> 


建议 34: 深入 理解 str() 和 reprO 的 区 别 
函数 str0 和 reprO 都 可 以 将 Python 中 的 对 象 转换 为 字符 串 ， 它 们 的 使 
用 以 及 输出 都 非常 相似 ， 以 至 于 很 多 人 认为 这 两 者 之 间 并 没有 区 别 ， 但 
事实 是 不 是 这 样 呢 ?” 先 来 看 对 于 不 同类 型 的 输入 ， 这 两 个 函数 的 输出 有 
何 异同 ， 如 表 3-6 所 示 。 
表 3-6 str 和 repr() 函 数 在 不 同情 况 下 输出 比较 


输入 str() repr() 











输入 fepr() 
class A(object): | 
"<class' maln .A'>" "<class’ maln .A'>" 
pass 
a=Al() ‘< main .Aobyectat Ox0228C6B0>” | ‘< main .A obyectatOx0228C6BO> 
def f(): oh 
‘<function fat 0X02284830> ‘<function fat 0X02284830> 
pass 
a= {21} 人 Mar 站 
a=230 由 (0.666666666667 '0.6666666666666666' 
a=[1,2,3] 情 名 条 全 2 


4= Decimal(].25) © "Decimal(1.25)" 
a=date.today() (® | 2013.07.20 ‘datetime,date(2013, 7, 20)' 


a=\ 出 "rin" "i 


从 表 3-6 看 出 ，repr() 和 str() 对 于 大 多 数 数 据 类 型 的 输出 基本 一 致 ， 
因此 混淆 也 就 不 难 理解 了 。 但 它们 也 存在 不 一 人 致 的 情况 。 那 么 ， 这 两 者 
之 则 到 底 有 什么 区 别 昵 ?总结 来 说 有 以 下 几 点 : 

1) 两 者 之 间 的 目标 不 同 : str0) 主 要 面 辐 用 户 ， 其 目的 是 可 读 性 ， 返 
回 形 式 为 用 户 友 好 性 和 可 读 性 都 较 强 的 字符 串 类 型 ， 而 repr0 面 同 的 是 
Python 解 释 器 ， 或 者 说 开发 人 员 ， 其 目的 是 准确 性 ， 其 返回 值 表 示 
Python 解释 器 内 部 的 含义 ， 第 作为 编程 人 员 debug 用 途 。 

2) 在 解释 器 中 直接 输入 a 时 默认 调用 repr() 函 数 ， 而 print ”a 则 调用 
str() 函 数 。 


有 repr() 的 返回 值 一 般 可 以 用 eval0 函 数 来 还 原 对 象 ， 通 常 来 说 有 如 


等 式 。 

















obj == eval(repr(obj)) 





但 需要 提醒 的 是 ， 这 个 等 式 不 是 所 有 情况 下 都 成 立 ， 如 用 户 重 新 实 
现 的 repr0 方 法 如 下 。 








>>> s="" 100 


>>> eval(str(S)) == s 
False 
>>> 





4) 这 两 个 方法 分 别 调用 内 建 的 _str_0O 和 repr_0 方 法 ， 一般 来 
说 在 类 中 都 应 该 定义 _repr_0 方 法， 而 _str_0 方 法 则 为 可 选 ， 当 可 读 
性 比 准确 性 更 为 重要 的 时 候 应 该 考虑 定义 _ str_0 方 法。 如 果 类 中 没有 
定义 _str_0 方 法 ， 则 默认 会 使 用 _repr_ 0 方法 的 结果 来 返回 对 象 的 字 
符 串 表 示 形 式 。 用 户 实现 _repr_ 0 方法 的 时 候 最 好 保证 其 返回 值 可 以 
用 eval() 方 法 使 对 象 重新 还 原 。 


建议 35: 分 清 staticmethod 和 classmethod 的 适用 场景 


Python 中 的 项 态 方法 〈staticmethod) 和 类 方法 〈classmethod) 都 依 
赖 于 疙 饰 器 〈decorator) 来 实现 。 其 中 静态 方法 的 用 法 如 下 : 





class C(object ) : 
@staticmethod 
def f(argl: arg2; a...): 





而 类 方法 的 用 法 如 下 : 





class C(object): 
@classmethod 
def tf{els, arol, ao wa)s 














静态 方法 和 类 方法 都 可 以 通过 类 名 .方法 名 (如 C.f0) 或 者 实例 . 方 
法 名 (CO.f0) A 其 中 静态 方法 没有 常规 方法 的 特殊 行 
为 ， 如 绑 定 、 非 绑 定 、 隐 式 参 数 等 规则 ， 而 类 方法 的 调用 使 用 类 本 身 作 
为 其 隐 含 参数 ， 但 调用 本 身 并 不 需要 显示 提供 该 参数 。 











Class A(object ) : 
def instance_method( self,x): 
print "calling instance method instance method(%s,%s)"%(self,x) 
@classmethod 
def class method(cl Se 
print "calling class_ method(%s,%s)"%(cls,x) 
@staticmethod 
def static method(x): 
print "calling static method(%s)"%x 


A() 
二 instance_method("test") 
# 


输出 calling instance method instance method(< main .A object at Ox00D66B50>, test) 
class_method("test") 


输出 calling class_method(<class ' main .A'>,test) 
a.static method("test") 


# 
输出 calling static_method(test) 





上 面 的 例子 是 类 方法 和 静态 方法 的 简单 应 用 ， 从 程序 的 输出 可 以 看 
0 
含 参数 传 入 的 。 








在 了 解 完 静态 方法 和 类 方法 的 基本 知识 之 后 再 来 研究 这 样 一 个 问 
题 : 为 什么 需要 静态 方法 和 类 方法 ， 它 们 和 普通 的 实例 方法 之 间 存 在 什 
么 区 别 ? 我 们 通过 对 具体 问题 的 研究 来 回答 这 些 问 题 。 假 设 有 水 果 类 
Fruit， 它 用 属性 total 表 示 总 量 ，Fruit 中 己 经 有 方法 set() 来 设置 总 量 ， 
print_total0) 方 法 来 打印 水 果 数 量 。 类 Apple 和 类 Orange 继 承 和 白 Fruit。 我 们 
需要 分 别 跟 踪 不 同类 型 的 水 果 的 总 量 。 有 好 几 种 方法 可 以 实现 这 个 功 


全 已 
月 上 。 








方法 一 : 利用 普通 的 实例 方法 来 实现 。 

在 Apple 和 Orange 类 中 分 别 定义 类 变量 total， 然 后 再 窗 新 基 类 的 set() 
和 print_total() 方 法 ， 但 这 会 导致 代码 见 余 ， 因 为 本 质 上 这 些 方 法 所 实现 
的 功能 相同 (读者 可 以 自行 完成 )。 


方法 二 : 使 用 类 方法 实现 ， 有 具体 实现 代码 清单 如 下 。 











class Fruit(object): 
total = 0 


@classmethod 

def print_total(cls): 
print cls.total 
#print id(Fruit.total) 
#print id(cls.total) 

@classmethod 

def set(cls, value): 
#print "calling class_ method(%s,%s)"%(cls,value) 
cls.total = Value 

class Apple(Fruit): 
a 


S 
class Orange(Fruit): 
Pass 


app1 = Apple() 


org1.set(300) 

org2 = Orange() 
app1.print_total() #output 200 
org1.print_total() #output 300 








删除 上 面 代码 中 的 注释 语句 后 运行 程序 会 得 到 以 下 结果 : 





calling class_method(<class '_ main _.Apple'>,200) 
calling class_method(<class '_ main .Orange'>,300) 


12184820------ >Eruit 
类 变量 





12184820------ >Fruit 
类 的 类 变量 

13810996 ----- > 

动态 





x 生 成 的 Orange 
类 的 类 变量 





简单 分 析 可 知 ， 针 对 不 同 种 类 的 水 果 对 象 调用 set(0) 方 法 的 时 候 隐 形 
传 入 的 参数 为 该 对 象 所 对 应 的 类 ， 在 调用 set0 的 过 程 中 动态 生成 了 对 应 
的 类 的 类 变量 。 这 就 是 classmethod 的 妙 处 。 请 读者 上 自行 思考 : 此 处 将 类 
方法 改 为 静态 方法 是 人 否 可 行 呢 ? 


我 们 再 来 看 一 个 必须 使 用 类 方法 而 不 是 静态 方法 的 例子 : 假设 对 于 
每 一 个 Fruit 类 我 们 提供 3 个 实例 属性 :area 表 示 区 域 代码 ，category 表 示 
种 类 代码 ，batch 表 示 批 次 号 。 现 需要 一 个 方法 能 够 将 以 area-category- 
batch 形 式 表 示 的 字符 串 形 式 的 输入 转化 为 对 应 的 属性 并 以 对 象 返 回 。 


假设 Fruit 中 有 如 下 初始 化 方法 ， 并 且 有 静态 方法 Init _ ProductO) 能 够 
满足 上 面 所 提 的 要 求 。 




















def _ init__(self, area="", category="", batch=""): 
self.area = area 
self.category = category 
self.batch = batch 
@staticmethod 
def Init_Product(product_info): 

area, category, batch = map(int, product_info.split('-')) 
uit = Fruit(area, category, batch) 
return fruit 





我 们 首先 来 看 看 使 用 静态 方法 所 带 来 的 问题 。 





app1 = Apple (2,5,10 

org1 = Orange.Init_Product("3-3-9") 

print "app1 is instance of Apple:"+str(isinstance(app1，Apple)) 
print "orgl is instance of Orange:"+Sstr(isinstance(org1，Orange) ) 





运行 程序 我 们 会 发 现 isinstance(org1， ”Orange) 的 值 为 False。 这 不 奇 
怪 ， 因 为 静态 方法 实际 相当 于 一 个 定义 在 类 里 面 的 函数 ，Init_Product 返 
回 的 实际 是 Fruit 的 对 象 ， 所 以 它 不 会 是 Orange 的 实例 。Init ProductO 的 
功能 类 似 于 工厂 方法 ， 能 够 根据 不 同 的 类 型 返回 对 应 的 类 的 实例 ， 因 此 
使 用 静态 方法 并 不 能 获得 期 望 的 结果 ， 类 方法 才 是 正确 的 解决 方案 。 可 
以 针对 代码 做 出 如 下 修改 : 











@classmethod 
def Init_Product(cls,product_info) : 


rea, category, batch = map(int, product_info.split('-')) 
fruit = cls(area, category, batch) 
return fruit 





也 许 读者 会 问 : 既然 这 样 ， 静 态 方法 到 底 有 什么 用 呢 ? 什么 情况 下 
可 以 使 用 静态 方法 ?继续 上 面 的 例子 ， 假 设 我 们 还 需要 一 个 方法 来 验证 
输入 的 合法 性 ， 方 法 的 具体 实现 如 下 : 





def is_input_valid(product_info): 
area, category, batch = map(int, product_info.split('-')) 
try: 


asser 8 = 10 
asser to tegory <= 15 
asser t 9 <= batch <= 99 
pt AssertionE 和 

tu Fal 





那么 应 该 将 其 声明 为 静态 方法 还 是 类 方法 呢 ? 答案 是 两 者 都 可 ， 甚 
至 将 其 作为 一 个 定义 在 类 的 外 部 的 函数 都 是 可 以 的 。 但 仔细 分 析 该 方法 
会 及 现 它 既 不 跟 特 定 的 实例 相关 也 不 跟 特 定 的 类 相关 ， 因 此 将 其 定义 为 
静态 方法 是 个 不 错 的 选择 ， 这 样 代 码 能 够 一 目 了 然 。 也 许 你 会 问 : 为 什 
么 不 将 该 方法 定义 成 外 部 函数 呢 ? 这 是 因为 静态 方法 定义 在 类 中 ， 较 之 
外 部 函数 ， 能 够 更 加 有 效 地 将 代码 组 织 起 来 ， 从 而 使 相关 代码 的 垂直 距 
离 更 近 ， 提 高 代码 的 可 维护 性 。 当 然 ， 如 果 有 一 组 独立 的 方法 ， 将 其 定 
义 在 一 个 模块 中 ， 通 过 模块 来 访问 这 些 方 法 也 是 一 个 不 错 的 选择 。 








第 4 章 ” 库 


Python 具有 丰富 的 库 ， 掌 握 所 有 的 库 的 用 法 和 使 用 基本 上 是 不 可 能 
的 ， 更 好 的 方法 是 掌握 一 些 常见 库 的 使 用 和 注意 事项 ， 对 于 使 用 较 少 的 
库 可 以 在 具体 应 用 时 参考 其 文档 以 及 使 用 范例 。 本 章 主要 讨论 一 些 常用 
库 的 使 用 和 技巧 。 








建议 36: 掌握 字符 串 的 基本 用 法 


无 名 氏 说 : 编程 有 两 件 事 ， 一 件 是 处 理 数 值 ， 另 一 件 是 处 理 字符 
串 。 要 我 说 ， 对 于 商业 应 用 编程 来 说 ， 处 理 字 符 串 的 代码 可 能 超过 八 
成 ， 所 以 掌握 字符 串 的 基本 用 法 尤其 重要 。 通 过 Python 教 程 ， 读 者 已 经 
掌握 了 基本 的 字符 串 字 面 量 语法 ， 比 如 u、r 前 绥 等 ， 但 对 于 怎么 更 好 地 
编写 多 行 的 字符 串 字 面 量 ， 仍 然 有 个 小 技巧 值得 癌 大 家 推介 。 














Ss SELECT * " 
"FROM atable ‘' 
WHERE afield="value"') 


>>> s 
"SELECT * FROM atable WHERE afield="value"' 











这 就 是 利用 Python 过 到 未 闭合 的 小 括号 时 会 自动 将 多 行 代码 拼接 为 
一 行 和 把 相 邻 的 两 个 字符 串 字 面 量 拼接 在 一 起 的 特性 做 到 的 。 相 比 使 用 
3 个 连续 的 单 ( 双 ) 引号 ， 这 种 方式 不 会 把 换行 符 和 前 导 空 格 也 当 作 字 
符 串 的 一 部 分 ， 则 更 加 符合 用 户 的 思维 习惯 。 


除了 这 个 小 技巧 ， 也 许 你 已 经 听 说 过 Python 中 的 字符 串 其 实 有 str 和 
unicode 两 种 。 是 的 ， 的 确 如 此 ， 虽 然 在 Python 3 中 已 经 简化 为 一 种 ， 但 
如 果 你 还 在 编写 运行 在 Python 2 上 的 程序 ， 当 需要 判断 变量 是 否 为 字符 
串 时 ， 需 要 注意 了 。 判 断 一 个 变量 s 是 不 是 字符 串 应 使 用 
isinstance(S,basestring)， 注 意 这 里 的 参数 是 basestring 而 不 是 str。 























如 标注 中 所 示 : isinstance(a,str) 用 于 判断 一 个 字符 串 是 不 是 普通 字 
符 串 ， 也 就 是 说 其 类 型 是 否 为 str， 因 此 当 被 判断 的 字符 串 为 Unicode 的 





时 候 ， 返 回 False， 如 标注 所 示 。 同 样 ， 标 注 @) 中 isinstance(a,unicode) 
用 来 判断 一 个 字符 串 是 不 是 Unicode。 因 此 要 正确 判断 一 个 变量 是 不 是 
字符 串 ， 应 该 使 用 isinstance(s,basestring)， 因 为 basestring 才 是 是 str 和 
unicode 的 基 类 ， 包 含 了 普通 字符 串 和 unicode 类 型 。 


接 下 来 正式 开始 学 习 字 符 串 的 基本 用 法 。 与 其 他 书籍 、 手 册 不 同 ， 
我 们 将 通过 性 质 判 定 、 碍 找 奉 换 、 分 切 与 连接 、 变 形 、 填 空 与 删 减 等 5 
个 方面 来 学 习 。 首 先是 性 质 判 定 ，str 对 象 有 以 下 几 个 方法 : isalnum()、 
isalpha()、isdigit()、islower()、isupper()、isspace()、istitle()、 
startswith(prefix[，start[，end]])、endswith(suffix[,start[，end]])， 前 面 儿 个 
is*() 形 式 的 函数 很 简单 ， 顾 名 思 义 无 非 是 判定 是 否 数 字 、 字 母 、 大 小 
写 、 空 日 从 之 类 的 ，istitle() 作 为 东方 人 用 得 少 些 ， 它 是 判定 字符 串 是 否 
每 个 单词 都 有 且 只 有 第 一 个 字母 是 大 写 的 。 

















相对 于 is*(O 这 些 “ 小 儿科 ?来 说 ， 需 要 注意 的 是 *withO 函 数 族 可 以 接 
受 可 选 的 start、end 参 数 ， 善 加 利用 ， 可 以 优化 性 能 。 另 外 ， 目 Python 
2.5 版 本 起 ，*with() 函 数 族 的 prefix 参 数 可 以 接受 tuple 类 型 的 实 参 ， 当 实 
参 中 的 某 个 元 素 能 够 匹配 时 ， 即 返回 True。 


接 下 来 是 查找 与 替换 ，count( sub[，start[，end])、find( sub[，start[， 
end]])、index( sub[, start[, end]])、 rfind( sub[, start[,end]])、rindex( subl, 
start[, end]]) 这 些 方法 都 接受 start、end 参 数 ， 善 加 利用 ， 可 以 优化 性 能 。 
其 中 countO) 能 够 查找 子 串 sub 在 字符 串 中 出 现 的 次 数 ， 这 个 数值 在 调用 
replace 方 法 的 时 候 用 得 着 。 此 外 ， 需 要 注意 fnd0 和 index(0) 方 法 的 不 同 : 
findO 函 数 族 找 不 到 时 返回 -1，index0 函 数 族 则 抛 出 ValueError 异 稼 。 但 
对 于 判定 是 否 包含 子 串 的 判定 并 不 推荐 调用 这 些 方法 ， 而 是 推荐 使 用 in 
和 not in 操作 符 。 





>>> Str = "Test if a string contains Some Special substrings" 
>>> if str.find("some") != -1: # 

















使 用 find 
方法 进行 判断 

本 入 prin esy it contains" 
Yes,it contains 

>>> if "some" in str: # 
使 用 in 

















方法 也 可 以 判断 
a print "Yes,it contains using in" 


Yes,it contains using in 





replace(old, new[,count]) 用 以 蔡 换 字符 串 的 某 些 子 串 ， 如 果 指 定 
count 参 数 的 话 ， 就 最 多 替换 count 次 ， 如 果 不 指定 ， 就 全 部 替换 〈 跟 其 
他 语言 不 太一 样 ， 要 注意 了 ) 。 


然后 要 掌握 字符 串 的 分 切 与 连接 ， 关 于 连接 ， 会 有 一 市 专门 进行 讲 
述 ， 在 这 里 ， 专 讲 分 切 。partition(sep)、rpartition(sep)、 
splitlines([keepends])、 split([sep [,maxsplit]]))、 rsplit([sep[,maxsplit]])， 别 | 
看 这 些 方法 好 像 很 多 ， 其 实 只 要 弄 清楚 partition0 和 split0 就 可 以 了 。 
*partition0) 函 数 族 是 2.5 版 本 新 增 的 方法 ， 它 接受 一 个 字符 串 参 数 ， 并 返 
回 一 个 3 个 元 素 的 元 组 对 象 。 如 果 sep 没 出 现在 母 串 中 ， 返 回 值 是 (sep， 
""); 人 否则， 返回 值 的 第 一 个 元 素 是 sep 左 问 的 部 分 ， 第 二 个 元 素 是 sep 自 
身 ， 第 三 个 元 素 是 sep 右 端的 部 分 。 而 split0 的 参数 maxsplit 是 分 切 的 次 
数 ， 即 最 大 的 分 切 次 数 ， 所 以 返回 值 最 多 有 maxsplit+1 个 元 素 。 但 split() 
有 不 少 小 陷阱 ， 需 要 注意 ， 比 如 对 于 字符 串 s、s.split() 和 s.split(") 的 返回 
值 是 不 相同 的 。 














>>> ' hello world!'.split() 
['hello', 'world!'] 
>>> "' hello 











产生 差异 的 原因 在 于 : 当 和 忽略 sep 参 数 或 sep 参 数 为 None 时 与 明确 给 
sep 赋 予 字符 串 值 时 ，splitO 采 用 两 种 不 同 的 算法 。 对 于 前 者 ，splitO 先 去 
除 字符 串 两 端的 空白 符 ， 然 后 以 任意 长 度 的 空白 符 串 作为 界定 符 分 切 字 
符 串 《〈 即 连续 的 空白 符 串 被 当 作 单 一 的 空白 符 看 待 ) ;对 于 后 者 则 认为 
两 个 连续 的 sep 之 间 存 在 一 个 空 字 符 串 。 因 此 对 于 空 字符 串 (或 空白 符 
串 ) ， 它 们 的 返回 值 也 是 不 同 的 。 











mm Let 

[] 
人 
Eee 





掌握 J 了 split0， 可 以 说 字符 串 最 大 的 陷阱 已 经 路 过 去 了 。 下 面 是 关 


于 变形 的 内 容 。lower()、upper()、capitalize()、swapcase()、title0 这 些 无 
非 是 大 小 写 切换 的 小 事 ， 不 过 需要 注意 的 是 titile() 的 功能 是 将 每 一 个 单 
词 的 首 字 母 大 写 ， 并 将 单词 中 的 非 首 字母 转换 为 小 写 〈 英 文 文章 的 标题 
通 音 是 这 种 格式 ) 。 











>>> 'hello wOR1d!' .title() 
"Hello Wor1ld! 





因为 title(0) 函 数 并 不 去 除 字 符 串 两 端的 空白 人 符 也 不 会 把 连续 的 空白 
符 蔡 换 为 一 个 空格 ， 所 以 不 能 把 title0 理 解 先 以 空白 符 分 切 字 符 串 ， 然 
后 调用 capitalize() 处 理 每 个 字 词 以 使 其 首 字 母 大 写 ， 再 用 空格 将 它们 连 
接 在 一 起 。 如 果 你 有 这 样 的 需求 ， 建 议 使 用 string 模 块 中 的 capwords(s) 函 
数 ， 它 能 够 去 除 两 端的 空白 符 ， 再 将 连续 的 空白 符 用 一 个 空格 代 人 蔡 。 





>>> ' hello world!'.title() 

' Hello World!' 

>>> string.capwords(' hello world!') 
'Hello World!' 





看 ， 它 们 的 结果 是 不 相同 的 ! 最 后 ， 是 删 减 与 填充 。 删 减 在 文本 处 
理 是 很 常用 ， 我 们 第 党 得 把 字符 串 拘 头 去 尾 ， 就 用 得 上 和 它们。 如 果 
strip([chars])、1]strip([chars])、rstrip([chars]) 中 的 chars 参 数 没 有 指定 ， 就 
是 删除 空白 符 ， 空 白 符 由 string.whitespace 常 量 定义 。 填 充 则 常用 于 字符 
串 的 输出 ， 借 助 它们 能 够 排出 漂亮 的 版 和 面 。center(width[， ”flchar])、 
ljust(widthl, fillchar])、rjust(widthl, fillchar])、zfill(width)、 
expandtabs([tabsize]))， 看 ， 有 了 它们 ， 居 中 、 左 对 齐 、 右 对 齐 什么 的 完 
全 不 在 话 下 ， 这 些 方法 中 的 filchar 参 数 是 指 用 以 填充 的 字符 ， 默 认 是 空 
格 。 而 zfill0 中 的 z 是 指 zero， 所 以 顾名思义 ，zfill0 即 是 以 字符 0 进行 填 
充 ， 在 输出 数值 时 比较 常用 。expandtabs() 的 tabsize 参 数 默 认为 8， 它 的 
功能 是 把 字符 串 中 的 制 表 符 (tab)〉 转换 为 适当 数量 的 空格 。 








建议 37: 按 需 选择 sort() 或 者 sorted() 


各 种 排序 算法 以 及 它们 的 时 间 复 杂 度 分 析 是 很 多 企业 面试 人 员 在 面 
试 时 候 经 和 常会 问 到 的 问题 ， 这 也 不 难 理 解 ， 在 实际 的 应 用 过 程 中 确实 会 
过 到 各 种 需要 排序 的 情况 ， 如 按照 字母 表 输 出 一 个 序列 、 对 记录 的 多 个 
字段 排序 等 。 还 好 ，Python 中 的 排序 相对 人 简单， 常用 的 水 数 有 sort() 和 
ei 这 两 种 函数 并 不 完全 相同 ， 各 有 各 的 用 武之 地 。 我 们 来 有 具 
本 分 析 一 下 


1) 相 比 于 sort0，sorted0 使 用 的 范围 更 为 广泛 ， 两 者 的 函数 形式 分 
别 如 下 : 


sorted(iterable[, cmp[, key[, reverse]]]) 
s.sort([cmp[, key[, reverse]]]) 


这 两 个 方法 有 以 下 3 个 共同 的 参数 : 


cmp 为 用 户 定义 的 任何 比较 函数 ， 函 数 的 参数 为 两 个 可 比较 的 元 素 
(来 自 iterable 或 者 list) ， 函 数 根 据 第 一 个 参数 与 第 二 个 参数 的 关系 依 
次 返回 -1、0 或 者 +1《〈 第 一 个 参数 小 于 第 二 个 参数 则 返回 负数 ) 。 该 参 
数 默 认 值 为 None。 


.key 是 带 一 个 参数 的 函数 ， 用 来 为 每 个 元 素 提 取 比 较 值 ， 默 认为 
None 〈 即 直接 比较 每 个 元 素 ) 。 


:reverse 表 示 排 序 结果 是 否 反 转 。 











>>> persons = 'name': 'Jon', 'age': 32}, {'name': 'Alan', 'age': 50}, {'name': 


23}] 
ted(persons, key=lambda x: (x['name'], -x['age'])) 
'name': 'Alan'}, {'age': 23, 'name': 'Bob'}, {'age': 32, 'name': 'J 





从 函数 的 定义 形式 可 以 看 出 ，sortedO) 作 用 于 任意 可 迭代 的 对 象 ， 而 
sort() 一 般 作 用 于 列表 。 因 此 下 面 的 例子 中 针对 元 组 使 用 sort() 方 法 会 抛 
出 AttributeError， 而 使 用 sorted0 函 数 则 没有 这 个 问题 。 


SS = (ty 2,4,2,3) 
rt() 
Traceback (mos t， Cl 1 St 
File tdi 


e> 
AttributeError: ‘tu ole, bjec et he no attribute 'sort' 
>>> s d( 





2) 当 排 序 对 象 为 列表 的 时 候 两 者 适合 的 场景 不 同 。sorted0 函 数 是 

在 Python2.4 版 本 中 引入 的 ， 在 这 之 前 只 有 sort0 图 数 。sorted0 函 数 会 返 

回 一 个 排序 后 的 列表 ， 原 有 列表 保持 不 变 ， 而 sort(O 函 数 会 直接 修改 原 有 
列表 ， 函 数 返 回 为 None。 来 看 下 面 的 例子 : 














> i Pe pk hy PS | 
>> sorted(a) 

[1, 3, 7, '1'", " ] 
Sa 
[1 
>> print a.sort() 

None 

>> a 

[i S$ :A 
SA 








因此 如 果实 际 应 用 过 程 中 需要 保留 原 有 列表 ， 使 用 sorted0) 函 数 较为 
适合 ， 0 因为 sort0 函 数 不 需 要 复制 原 有 列表 ， 
消耗 的 内 存 较 少 ， 效率 也 较 高 


3) 无 论 是 sortO 还 是 sorted0 国 数 ， 传 入 参数 key 比 传 入 参数 cmp 效 率 
要 高 。cmp 传 入 的 函数 在 整个 排序 过 程 中 会 调用 多 次 ， 函 数 开销 较 大 ; 
而 key 针 对 每 个 元 素 仅 作 一 次 处 理 ， 因 此 使 用 key 比 使 用 cmp 效 率 要 高 。 
下 面 的 测试 例子 显示 使 用 key 比 cmp 约 快 50%。 











rom ti it ， impo 
Timer(s Set sor Pe ke ey=lambda x:x[1])",setup="xs=range(100);xs=zip(xs,xs) 
").timei dio) 
9 S00 42 ADO 


>>> i Dor Sn orted(xs acmps lambda a,b: cmp(a[1],b[1]))",setup="xs=range(100); 
Zip(X RS 加 meit(10000) 
0 47374972749250155 





4) sorted0 函 数 功能 非常 强大 ， 使 用 它 可 以 方便 地 针对 不 同 的 数据 
结构 进行 排序 ， 从 而 满足 不 同 需求 。 来 看 下 列 例子 。 








:对 字典 进行 排序 : 下 面 的 例子 中 根据 字典 的 值 进 行 排 序 ， 即 将 
phonebook 对 应 的 电话 号 人 码 按照 数字 大 小 进行 排序 。 





>>> phonebook = {'Linda': '7750', 'Bob': '9345', 'Carol': '5834'} 
>>> from operator import itemgetter 

>>> sorted pb = Sorted(phonebook .iteritems(),key=itemgetter(1)) 
>>> print sorted_pb 

[('Carol', '5834'), ('Linda', '7750'), ('Bob', '9345')] 

SP 








.多 维 list 排 序 : 实际 情况 下 也 会 碰 到 需要 对 多 个 字段 进行 排序 的 情 
况 ， 如 根据 学 生 的 成 绩 、 对 应 的 等 级 依次 排序 。 当 然 这 在 DB 里 面 用 
~ 但 使 用 多 维 列表 联合 sorted0 函 数 也 可 以 轻易 达到 
以 的 效果 。 





>>> from operator import itemgetter 
>>> gameresult = [['Bob',95.00,'A'],['Alan',86.0,'C'],['Mandy',82.5,'A'],['Rob', 
86,'E']] # 
分 别 表示 学 生 的 姓名 ， 成 绩 ， 等 级 
>>> sorted(gameresult , key=operator.itemgetter(2, 1)) 
[['Mandy', 82.5, 'A'], ['Bob', 95.0, 'A'], ['Alan', 86.0, 'C'], ['Rob', 86, 
FE， 


EE # 
当 第 二 个 字段 成 绩 相同 的 时 候 按照 等 级 从 低 到 高 排序 
] 











字典 中 混合 list 排 序 ， 如 果 字 典 中 的 key 或 者 值 为 列表 ， 需 要 对 列表 
中 的 某 一 个 位 置 的 元 素 排 序 也 是 可 以 做 到 的 。 下 面 的 例子 中 针对 字典 
mydict 和 的 value 结 构 [n,m] 中 的 no 按照 从 小 到 大 的 顺序 排列 。 








人 


1 
,Zhang': [YE 人 
Wang …: ["P’*.,3] 
'Du': ['C',2] 
iMa': fi'c 


: ['C',9], 
Sa 'Zhe': ['H',7] } 
>>> 
>>> from operator import itemgetter 
>>> sorted(mydict.iteritems(), key=lambda (k,v): operator. i 
[(” 人 3 2]), SY Du', a 2]), ('wang', ['P', 3]), ('L ['M', 7]), (0 
Zhe', ['H', 7]), Ma ['c', 9])] 





:List 中 混合 字典 排序 ， 如果 列表 中 的 每 一 个 元 素 为 字典 形式 ， 需 要 
针对 字典 的 多 个 key 值 进行 排序 也 不 难 实现 。 下 面 的 例子 是 针对 list 中 的 
字典 元 素 按照 rating 和 name 进 行 排序 的 实现 方法 。 





>>> 
gameresult = [{ "name":"B 
{ "name":"D ob", "wins":19, " 
:"David", "wi :10, "losses": 
y Ww. :3，，" 
“nanen: Carol'， 人 "losses":5 Cand Too } 
>> from operator i ame":"patty", "wi s":4, "losses":5! " ating":57.00 
>>> S or import i /wins":9，" :5, "rating": }, 
orted(game itemgette , "losses":3, "rati g":57.00 } 
result , key=ope 下 :3, "rating": 71.4 
perator.itemgetter("rati .48 }] 
ing", "name")) 


[{'wins': 
: 4, 'lo ' 
5 name': ， sses': 5, 'name': 
po a a a : 'Carol', 'rati 
: : ng': 
CS g': 71.48}, {'wins': 9 57.0}, {'wins': ts : 57.0}, {wins': 3, 
，'losses': 3 Ee JOSSes 9. Mame: losses! 
” : 'Bob', 'rati : 'Patty' 
,'rating': 75 y', 

: 75.0}] 


[ee | 


建议 38: 使 用 copy 模 块 深 撕 贝 对 象 
在 正式 讨论 本 市 内 容 之 前 我 们 先 来 了 解 一 下 浅 拷贝 和 深 找 贝 的 概 


SD 


浅 找 贝 (shallow copy) : 构造 一 个 新 的 复合 对 象 并 将 从 原 对 象 中 
发 现 的 引用 插入 该 对 象 中 。 浅 找 贝 的 实现 方式 有 多 种 ， 如 工厂 函数 、 切 
片 操 作 、copy 模 块 中 的 copy 操 作 等 。 


: 深 揽 贝 (deep ”copy) : 也 构造 一 个 新 的 复合 对 象 ， 但 是 遇 到 引用 
会 继续 递归 拷贝 其 所 指 癌 的 具体 内 容 ， 也 就 是 说 它 会 针对 引用 所 指 辣 的 
对 象 继 续 执 行 拷贝 ， 因 此 产生 的 对 象 不 受 其 他 引用 对 象 操作 的 影响 。 深 
拷贝 的 实现 需要 依赖 copy 模块 的 deepcopy0 操 作 。 


下 面 我 们 通过 一 段 简 单 的 程序 来 说 明 浅 拷贝 和 深 堵 贝 之 间 的 区 列 。 











import copy 
class Pizza(object): 
def _ init_ (self,name,size,price): 
self.name=name 
Self .size=Si28 
self .price=price 
def getPizzaInfo(self): 


中 获取 Pizza 
相关 信息 
return self.name, self.size, self.price 
def showPizzaInfo(self): 
回 显示 Pizza 
信息 


print "Pizza name:"+Self.name 
print "Pizza size:"+str(self.size) 
rint "Pizza price:"+str(self.price) 
def changeSize(self, size): 
elf.size=size 
def changePrice(self,price): 
self .price=price 
class Order(object): 
图 订单 类 
def _ init (self,name): 
self.customername=name 
self .pizzaList=[] 
self .pizzaList.append(Pizza("Mushroom", 12, 30)) 
def ordermore(self,pizza): 
self .pizzaList.append(pizza) 
def changeName(self,name): 
self.customername=name 
def getorderdetaill(self): 
print "customer name:"+self.customername 
for i in self.pizzaList: 
i.showPizzaInfo() 
def getPizza(selLf,number ) : 
return Self.pizzaList[number] 
Customer1=order("zhang") 
customer1.ordermore(Pizza("seafood",9,40)) 
customer1.ordermore(Pizza("fruit",12,35)) 
print "customer1 order infomation:" 
customer1i.getorderdetail() 
print "------------------------------- 本 


一 | 


程序 描述 的 是 客户 在 Pizza 店 里 下 了 一 个 订单 ， 并 将 具体 的 订单 信息 
打印 出 来 的 场景 。 运 行 输出 结果 如 下 : 





customer name:zhang 
Pizza name:Mushroom 
Pizza Size:12 

Pizza price:30 
Pizza name:seafood 
Pizza, S1268:9 

Pizza price:40 
Pizza name:fruit 
Pizza size:12 

Pizza price:35 





假设 现在 客户 2 也 想 下 一 个 跟 客户 1 一 样 的 订单 ， 只 是 要 将 预定 的 水 
果 披 院 的 尺寸 和 价格 进行 相应 的 修改 。 于 是 服务 员 找 贝 了 客户 1 的 订单 
言 轧 并 做 了 一 定 的 修改 ， 代 码 如 下 : 





customer2=copy.copy(customer1) 

print "order 2 customer name:"+customer2.customername 
customer2.changeName("1i") 
customer2.getPizza(2).changeSize(9) 
customer2.getPizza(2).changePrice(30) 

print "customer2 order infomation:" 
customer2.getorderdetail() 

print "------------------------------------- 





上 面 这 段 程 序 的 输出 也 没有 什么 问题 ， 完 全 满足 了 客户 2 的 需求 。 
输出 结果 如 下 所 示 : 





order 2 customer name:zhang 
customer2 order infomation: 
customer name:1i 

Pizza name:Mushroom 

Pizza size:12 

Pizza price:30 

Pizza name:seafood 

Pizza size:9 

Pizza price:40 

Pizza name:fruit 

Pizza size:9 

Pizza price:30 











Es 现在 我 们 再 来 检查 一 下 客户 1 的 订 





print "customer1 order information:" 
Customer1.getorderdetail() 





你 会 发 现 客户 1 的 订单 内 容 除 了 客户 姓名 外 ， 其 他 的 居然 和 客户 2 的 
订单 具体 内 容 一 样 了 。 





customer1 order infomation: 
customer name:zhang 
Pizza name:Mushroom 
pizza Size:12 

Pizza price:30 
Pizza name:seafood 
Pizza size:9 

Pizza price:40 
Pizza name:fruit 
Pizza size:9 

Pizza price:30 





这 是 怎么 回 事 呢 ? 客 己 1 根本 没 要 求 修改 订单 的 内 容 ， 这 样 的 结果 
必定 会 直接 影响 到 客户 满意 度 。 问 题 出 现在 哪里 ?这 是 我 们 本 节 要 重 反 
0 

不 。 








customerl customer2 



















Name = mushroom 


slze=]12 
price=30) 











图 4-1 客户 1 和 客户 2 订单 的 关系 示意 图 
customer1 中 的 pizzaList 是 一 个 由 Pizza 对 象 组 成 的 列表 ， 其 中 存放 的 





实际 是 对 一 个 个 具体 Pizza 对 象 的 引用 ， 在 内 存 中 就 是 一 个 具体 的 地 址 ， 
可 以 通过 查看 id 得 到 相关 信息 。 





print id(customer1.pizzaList[0]) 
输出 14099440 

print id(customer1.pizzaList[1]) 
输出 14101392 

print id(customer1.pizzaList[2]) 
输出 14115344 

print id(customer1.pizzaList) 
输出 13914800 








customer2 的 订单 通过 copy.copy(customer1) “获得 ， 通 过 id 函数 查看 
customer2 中 pizzaList 的 具体 Pizza 对 象 你 会 发 现 它们 和 customer1 中 的 输出 
是 一 样 的 (读者 可 以 自行 验证 ) 。 这 是 由 于 通过 copy.copy0 得 到 的 
customer2 是 customer1 的 一 个 浅 找 贝 ， 它 仅仅 拷贝 了 pizzalist 里 面 对 象 的 
地 址 而 不 对 对 应 地 址 所 指 同 的 具体 内 容 〈( 即 具体 的 pizza〉 进 行 找 贝 ， 
此 customer2 中 的 pizzaList 所 指 癌 的 具体 内 容 是 和 customer1l 中 一 样 的 ， 如 
图 4-1 所 示 。 所 以 对 pizza fruit 的 修改 直接 影响 了 customer1 的 订单 内 容 。 
实际 上 在 包含 引用 的 数据 结构 中 ， 浅 拷贝 并 不 能 进行 彻底 的 拷贝 ， 当 存 
在 列表 、 字 典 等 不 可 变 对 象 的 时 候 ， 它 仅仅 揽 贝 其 引用 地 址 。 要 解决 上 
述 问 题 需 要 用 到 深 找 贝 ， 深 找 贝 不 仅 找 贝 引用 也 拷贝 引用 所 指 癌 的 对 
象 ， 因 此 深 找 贝 得 到 的 对 象 和 原 对 象 是 相互 独立 的 。 


上 面 的 例子 充分 展示 了 浅 找 贝 和 深 找 贝 之 间 的 差异 ， 在 实际 应 用 中 
要 特别 注意 这 两 者 之 间 的 区 别 。 实 际 上 Python copy 模 块 提 供 了 与 浅 拷贝 
和 深 堵 贝 对 应 的 两 种 方法 的 实现 ， 通 过 名 字 便 可 以 轻易 进行 区 分 ， 模 块 
在 找 贝 出 现 异常 的 时 候 会 抛 出 copy.error。 














实际 上 ， 上 面 的 程序 应 该 将 customer2=copy.copy(customer1) 改 为 
copy.deepcopy0) 来 实现 (请 读者 自行 验证 ) 。 关 于 对 象 找 贝 读者 可 以 但 
看 网 页 http://en.wikipedia.org/wiki/Object_copy 进 行 阅读 扩展 。 


建议 39: 使 用 Counter 进 行 计数 统计 


计数 统计 相信 大 家 都 不 卫生 ， 简 单 地 说 就 是 统计 某 一 项 出 现 的 次 
数 。 实 际 应 用 中 很 多 需求 部 需要 用 到 这 个 模型 ， 如 检测 样本 中 茶 一 值 出 
现 的 次 数 、 日 志 分 析 茶 一 消息 出 现 的 频率 、 分 析 文 件 中 相同 字符 串 出 现 
的 概率 等 。 这 种 类 似 的 需求 有 很 多 种 实现 方法 。 我 们 逐一 来 看 一 下 使 用 
不 同 数据 结构 时 的 实现 方式 。 


1) 使 用 dict。 














Smm Sb NOR s L'a ia! 2S a DMT 
>>> count_frq = dict() 
>>> for item in some_data: 
if item in count_frq: 
count_frq[item] +=1 
else: 
count_frq[item] = 1 
>>> print count_frq 
i 





2) 使 用 defaultdict。 





>>> from collections Oeste da et 
>>> Some_data = ['a','2',2,4,5, 
>>> count_frq = dpe tg te 
>>> for item in some_data: 
count_frq[item] += 1 


>>> print count_fr 
defaultdict(<type "int Ss, {B&B': 9 2 1 B's 和 
1 "d's 4} 





3) 使 用 set 和 list。 





>»> some data = ['a','2',2,4,5, 2" °b' 4d7, a'jS, das 2z'] 
>>> count_set = set(some_data) 
>>> count_list = [] 
>>> for item in count_set: 
count_list.append((item, some_data.count(item))) 


>>> print count_list 
[('a', 3), (2, 1), ('b', 1), (4, 2), (5, 2), (7, 1), ('2', 2), ('z', 1), ('d', 1)] 








上 面 的 方法 都 比较 简单 ， 但 有 没有 更 优雅 、 更 Pythonic 的 解决 方法 


呢 ? 答案 是 使 用 collections.Counter。 





>>> from collections import Counter 
7 

>>> print 0 data) 

Counter({'a': 3, 4: 2, 5: 2, '2': 2, 2: 1, 'b': 1, 7: 1, 'z': 1, 'd': 1}) 








Counter 类 是 自 Python2.7 起 增加 的 ， 属 于 字典 类 的 子 类 ， 是 一 个 容 
器 对 象 ， 主 要 用 来 统计 散 列 对 象 ， 文 持 集 合 操作 +、-、&&、|， 其 中 & 和 | 
操作 分 别 返 回 两 个 Counter 对 象 各 元 素 的 最 小 值 和 最 大 值 。 它 提供 了 3 种 
不 同 的 方式 来 初始 化 : 








Counter("success") # 
可 迭代 对 象 

So 3,c=2, e=1, u=1) # 
关键 全 


counter(f ae 
字典 





可 以 使 用 elements(0) 方 法 来 获取 Counter 中 的 key 值 。 





Sp ah gaa): olen 
[L'a 'b! 2 








利用 most_common() 方 法 可 以 找 出 前 N 个 出 现 频率 最 高 的 元 素 以 及 
它们 对 应 的 次 数 。 





>>> Counter(Some_data) .most_common(2) 
(4, 2)] 


[('a', 3), 








当 访 问 不 存在 的 元 素 时 ， 默 认 返 回 为 0 而 不 是 抛 出 KeyError 异 常 。 





>>> (Counter(some_data))['y'] 
9 





update() 方 法 用 于 被 统计 对 象 元 素 的 更 新 ， 原 有 Counter 计 数 嚣 对象 
与 新 增 元 素 的 统计 计数 值 相 加 而 不 是 直接 蔡 换 它们 。 


subtract() 方 法 用 于 实现 计数 器 对 象 中 元 系统 计 值 相 减 ， 输 入 和 输出 
的 统计 值 允 许 为 0 或 者 负数 。 





>>> C = Counter("success") aunteorttte .V2 de Me 

>>> c.update("successfully") FR De -Ree i A Eh 
> #S 

的 值 为 变 为 6 

， 为 上 面 s 

中 对 应 值 的 和 





CHUNEerte Ss Br 0 
>>> c.subtract("successfully") 

>>> C 

BOUINteortes SS J 


ee | 


建议 40: 深入 笛 握 ConfigParser 


几乎 所 有 的 应 用 程序 真正 运行 起 来 的 时 候 ， 都 会 读 取 一 个 或 几 个 配 
置 文件 。 配 置 文件 的 意义 在 于 用 户 不 需要 修改 代码 ， 就 可 以 改变 应 用 程 
序 的 行为 ， 让 它 更 好 地 为 应 用 服务 。 比 如 pylint 就 带 有 一 个 参数 --rcfile 用 
以 指定 配置 文件 ， 实 现 对 自 定义 代码 风格 的 检测 。 常 见 的 配置 文件 格式 
有 XML 和 ini 等 ， 其 中 在 MS Windows 系 统 上 ，ini 文 件 格式 用 得 尤其 多 ， 
甚至 操作 系统 的 API 也 都 提供 了 相关 的 接口 函数 来 文 持 它 。 类 似 ini 的 文 
件 格 式 ， 在 Linux 等 操作 系统 中 也 是 极 常 用 的 ， 比 如 pylint 的 配置 文件 就 
是 这 个 格式 。 但 凡 这 种 常用 的 东西 ，Python 都 有 个 标准 库 来 支持 它 ， 也 


就 是 ConfigParser。 
ConfigParser 的 基本 用 法 通过 手册 可 以 掌握 ， 但 是 仍然 有 几 个 知识 


点 值得 在 这 里 跟 大 家 说 一 下 。 首 先 就 是 getboolean() 这 个 函数 。 
的 规则 将 配置 项 的 值 转换 为 布尔 值 ， 如 以 下 的 配 

















当 调 用 getboolean('section1' 'optioin1") 时 ， 将 返回 False。 不 过 
getboolean0) 的 真 值 规则 值得 一 说 : 除了 0 之 外 ，no、false 和 off 都 会 被 转 
义 为 False， 而 对 应 的 1、yes、true 和 on 则 都 被 转 义 为 True， 其 他 值 都 会 
导致 抛 出 ValueError 异 常 。 这 样 的 设计 非常 贴心 ， 使 得 我 们 能 够 在 不 同 
的 场合 使 用 yes/no、true/false、on/off 等 更 切合 自然 语言 语法 的 词汇 ， 提 
升 配置 文件 的 可 维护 性 。 


除了 getboolean0 之 外 ， 还 需要 注意 的 是 配置 项 的 得 找 规则 。 首 先 ， 
在 ConfigParser 文 持 的 配置 文件 格式 里 ， 有 一 个 [DEFAULT] 节 ， 当 读 取 
的 配置 项 在 不 在 指定 的 节 里 时 ，ConfigParser 将 会 到 [DEFAULT] 节 中 查 
找 。 举 个 例子 ， 有 如 下 配置 文件 : 




















$ cat example.conf 

[DEFAULT] 

in_default = 'an option value in default' 
[section1] 








简单 地 编写 一 段 程序 尝试 通过 section1 获 取 in_default 的 值 。 











$ python readini.py 
"an option value in default' 





可 见 ConfigParser 的 行为 跟 上 文 描述 是 一 致 的 。 不 过 ， 除 此 之 外 ， 
还 有 一 些 机 制导 致 项 目 对 配置 项 的 查找 更 复杂 ， 这 就 是 class 
ConfigParser 构 造 函 数 中 的 defaults 形 参 以 及 其 get(section， option[， rawl， 
vars]]) 中 的 全 名 参数 vars。 如 果 把 这 些 机 制 全 部 用 上 ， 那 么 配置 项 值 的 
查找 规则 如 下 : 


1) 如 果 找 不 到 节 名 ， 就 抛 出 NoSectionError。 


2) 如 果 给 定 的 配置 项 出 现在 get() 方 法 的 vars 参 数 中 ， 则 返回 vars 参 
数 中 的 值 。 


3) 如 果 在 指定 的 节 中 含有 给 定 的 配置 项 ， 则 返回 其 值 。 
4) 如 果 在 [DEFAULT] 中 有 指定 的 配置 项 ， 则 返回 其 值 。 


5) 如 果 在 构造 函数 的 defaults 参 数 中 有 指定 的 配置 项 ， 则 返回 其 


6) 抛 出 NoOptionError。 


因为 篇 幅 所 限 ， 这 里 就 不 提供 示例 了 ， 大 家 可 以 上 自行 构造 相应 的 例 
子 来 验证 。 接 下 来 要 讲 的 是 第 三 个 特点 。 大 家 知道 ， 在 Python 中 字符 串 
格式 化 可 以 使 用 以 下 语法 : 








>>> (roto ns Ca %(port)s/' % { 'protocol':'http', 'server':'example.com', 


'port':108 
tt ei eo 1080/" 








其 实 ConfigParser 文 持 类 似 的 用 法 ， 所 以 在 配置 文件 中 可 以 使 用 。 
如 ， 有 如 下 配置 选项 ; 





$ cat format.conf 

[DEFAULT] 

conn_str = %(dbn)s://%(user)s:%(pw)s@%(host)s:%(port)s/%(db)s 
dbn = mysql 

user = root 

host=localhost 


pw=ppp 
db=example 


[db2] 
host=192.168.0.110 
pw=www 
db=example 





这 是 一 个 很 常见 的 SQLAlchemy 应 用 程序 的 配置 文件 ， 通 过 这 个 配 
置 文件 能 够 获取 不 同 的 数据 库 配 置 相 应 的 连接 字符 串 ， 即 conn_str。 如 
你 所 见 ，conn_str 定 义 在 [DEFAULT] 中 ， 但 当 它 通过 不 同 的 节 名 来 获取 
格式 化 后 的 值 时 ， 根 据 不 同 配 置 ， 得 到 不 同 的 值 。 先 来 看 以 下 代码 : 








$ cat readformatini.py 

import ConfigParser 

conf = ConfigParser.ConfigParser() 
conf.read('format.conf' 

print conf.get('db1'， 'conn_str') 
print conf.get('db2', 'conn_str') 





非常 简单 的 代码 ， 就 是 通过 ConfigParser 获 取 db1 和 db2 两 个 节 的 配 
置 。 然 后 看 如 下 输出 : 





$ python readformatini.p 
mysql://aaa:ppp@localhost:3306/example 
mysql://root:www@192.168.0.110:3306/example 








可 以 看 到 ， 当 通过 不 同 的 节 名 调用 get0 方 法 时 ， 格 式 化 conn_str 的 


参数 是 不 同 的 ， 这 个 规则 跟 上 述 查 找 配置 项 的 规则 相同 。 


建议 41: 使 用 argparse 处 理 命令 行 参 数 


尽管 应 用 程序 通常 能 够 通过 配置 文件 在 不 修改 代码 的 情况 下 改变 行 
为 ， 但 提供 元 活 易 用 的 命令 行 参 数 依然 非常 有 意义 ， 比 如 : 减轻 用 户 的 
学 习 成 本 ， 通 第 命令 行 参数 的 用 法 只 需要 在 应 用 程序 名 后 面 加 --help 参 
数 就 能 获得 ， 而 配置 文件 的 配置 方法 通 音 需 要 通读 手册 才能 掌握 ， 同 一 
个 运行 环境 中 有 多 个 配置 文件 存在 ， 那 么 需要 通过 命令 行 参数 指定 当前 
使 用 哪 一 个 配置 文件 ， 如 pylint 的 --rcfile 参 数 就 是 做 这 个 事 的 。 


为 了 做 好 命令 行 处 理 这 件 事 ，Pythonista 尝 试 好 几 个 方案 ， 标 准 库 
中 留 下 的 getopt、optparse 和 argparse 就 是 证 明 。 其 中 getopt 是 类 似 UNIX 
系统 中 getopt() 这 个 C 函 数 的 实现 ， 可 以 处 理 长 短 配 置 项 和 参数 。 如 有 命 
令 行 参 数 -a -b -cfoo -d bar al a2， 在 处 理 之 后 的 结果 是 两 个 列表 ， 其 中 
一 个 是 配置 项 列表 [(-a', "), (-b',"), (-c, foo), (-d', bar)]， 每 一 个 元 又 都 
由 配置 项 名 和 其 值 ( 默 认为 空 字符 串 ) 组 成 ; 男 一 个 是 参数 列表 ['al， 
'a2']， 每 一 个 元 素 都 是 一 个 参数 值 。getopt 的 问题 在 于 两 点 ， 一 个 是 长 短 
0 二 是 对 非法 参数 和 必 填 参数 的 处 理 需 要 手动 。 
D: 





trys 

opts, args = getopt.getopt(sys.argv[1:], "ho:v", ["help", "output="]) 
except getopt.GetoptError as err: 
i r)# 


p 
此 处 输出 类 似 "option -a not recognized" 
的 出 错 信 ， 





从 for 循 环 处 可 以 看 到 ， 这 种 处 理 非 常 原始 和 不 便 ， 而 从 
getopt.getopt(sys.argv[1:]，"ho:v"，["help"，"output="]) 函 数 调 用 时 的 "ho:v" 
和 ”["help"， "output="] 两 个 实 参 可 以 看 出 ， 要 编写 和 维护 还 是 比较 困难 
的 ， 所 以 optparse 就 登场 了 。optparse 比 getopt 要 更 加 方便 、 强 劲 ， 与 C 风 
格 的 getopt 不 同 ， 它 采用 的 是 声明 式 风格 ， 此 外 ， 它 还 能 够 自动 生成 应 
用 程序 的 帮助 信息 。 下 面 是 一 个 例子 : 


from optparse import OptionParser 
parser = 0ptionParser() 
parser.add_option("-f"，"--file"，dest="filename" 
help="write report to FILE" metavar= "TLE 
parser.add_ option("-q", "--quiet", 
action="store_false", dest="verbose", default=True, 
help="don't print status messages to” stdout") 
(options, args) = parser.parse_args() 








可 以 看 到 add_option() 方 法 非常 强大 ， 同 时 支持 长 短 配 置 项 ， 还 有 默 
认 值 、 帮 助 信息 等 ， 简 单 的 几 行 代码 ， 可 以 支持 非常 丰富 的 命令 行 接 
口 。 如 ， 以 下 几 个 都 是 合法 的 应 用 程序 调用 : 











<yourscript> -f outfile --quiet 
<yourscript> --quiet - :Je outfile 
<yourscript> -q -foutfile 
<yourscript> -qfoutfile 





0 虽然 没有 声明 帮助 参数 ， 但 默认 给 加 上 了 -h 或 --help 文 
持 ， 这 两 个 参数 调用 应 用 程序 ， 可 以 看 到 自动 生成 的 帮助 信息 。 





Usage: <yourscript> [options] 


Options: 
-h, lp show this help message and exit 
-f FILE, --file=FILE write report to FILE 
-q, --quiet don't print status messages to stdout 








不 过 optparse 虽 然 很 好 ， 但 是 后 来 出 现 的 argparse 在 继承 了 它 声 明 式 
风格 的 优点 之 外 ， 又 多 了 更 丰富 的 功能 ， 所 以 现 阶段 最 好 用 的 参数 处 理 
标准 库 是 argparse， 使 optparse 成 为 了 一 个 被 弃 用 的 库 。 


因为 argparse 自 optparse 脱 胎 而 来 ， 所 以 用 法 倒 也 大 致 相同， 都 是 先 
生成 一 个 parser 实 例 ， 然 后 增加 参数 声明 。 如 上 文中 getopt 的 那个 例子 ， 
可 以 用 其 改造 为 如 下 形式 : 





import argparse 

parser = argparse. 人 

parser.add_argument( outpu ut') 

parser.add_argument('-v' dest= 'verbose', action='store_true') 
args = parser. parse_args() 





可 以 看 到 ， 代 码 大 大 地 减 化 了 ， 代 但 更 少 ，bug 更 少 。 与 optparse 中 
的 add_option() 类 似 ，add_argument() 方 法 用 以 增加 一 个 参数 声明 。 与 
add_option0 相 比 ， 它 有 几 个 方面 的 改进 ， 其 中 之 一 就 是 文 持 类 型 增多 ， 
而 且 语法 更 加 直观 。 表 现在 type 参 数 的 值 不 再 是 一 个 字符 串 ， 而 是 一 个 
可 调用 对 象 ， 比 如 在 add_option0 调 用 时 是 type="int"， 而 在 
add_argument() 调 用 时 直接 写 type=int 就 可 以 了 。 除 了 支持 常规 的 int/float 
等 基本 数值 类 型 外 ，argparse 还 文 持 文件 类 型 ， 只 要 参数 合法 ， 程 序 就 
能 够 使 用 相应 的 文件 摘 述 符 。 如 ; 








>>> parser = argparse.ArgumentParser() 
>>> parser.add argument('bar', type=argparse.FileType('w')) 
本 [OU 二] 


>>> parser .pa 这 
Namespace(bar=<open file 'out.txt', mode 'w' at QOx...>) 








另外 ， 扩 展 类 型 也 变 得 更 加 容易 ， 任 何 可 调用 对 象 ， 比 如 函数 ， 都 
可 以 作为 type 的 实 参 。 与 type 类 似 ，choices 参 数 也 文 持 更 多 的 类 型 ， 而 
不 是 像 add_option 那 样 只 有 字符 串 。 比 如 下 面 这 名 代码 是 合法 的 : 





parser.add_argument( 'door'，type=int，choices=range(1，4)) 





此 外 ，add_argument() 提 供 了 对 必 填 参数 的 支持 ， 只 要 把 required 参 
数 设 置 为 True 传 递 进去 ， 当 缺失 这 一 参数 时 ，argparse 就 会 自动 退出 程 
序 ， 并 提示 用 户 。 


如 果 仅 仅 是 add_argumentO 比 add_option0 更 加 强大 一 点 ， 并 不 足以 
让 它 把 optparse 踢 出 标准 库 ，ArgumentParser 还 文 持 参数 分 组 。 
add_argument_group0 可 以 在 输出 帮助 信息 时 更 加 清晰 ， 这 在 用 法 复杂 
的 CLI 应 用 程序 中 非常 有 帮助 ， 比 如 setuptools 配 套 的 setup.py 文 件 ， 如 果 
0 setup.py help 可 以 看 到 它 的 参数 是 分 组 的 。 下 面 是 一 个 简单 

示 六 | : 











se.ArgumentParser(prog='PRO0G'，add_helLp=False) 
umen roup('group1'， 'group1l description') 
’ p 
rou = umen roup('group2', 'group2 description') 
roup2.add_argument('--bar', help='bar help') 


中 石 巴 巴巴 书 蕊 
忆 . 荆 

区 

DD = 
已 
多 
了 
oy 
全 > 
口 
EE 
Sy 
© 


arser .print_help() 
: PROG [--bar BAR] foo 


四 V 
mVVVVVV 
© 

-2 


roupl: 
gr roup1 descriptio 
00 foo help 
group2 
gro 2 descri iption 
-bar BAR bar help 





如 果 仅 仅 是 更 加 漂亮 的 帮助 信 ， 居 输 出 个 够 吸引 你 ， 那么 
add_mutually_exclusive_group(required=False) 就 非常 实用 : 它 确保 组 中 
的 参数 至 少 有 一 个 或 者 只 有 一 个 (required=True) 。 


argparse 了 世 文 持 于 他 命令 ， 比 如 pip 就 有 install/uninstall/freeze/list/show 
等 子 命令 ， 这 些 子 命令 又 接受 不 同 的 参数 ， 使 用 
ArgumentParser.add_subparsers() 就 可 以 实现 类 似 的 功能 








hor rt argpa 
> ser = ar a rse.ArgumentParser (prog='PROG') 
” Subparsers = parser.add_subparsers(help='sub-command help') 


>> p') 

>>> Dae a.add_ argument('- -bar' | nt, help='bar help') 
> pa r.parse_ args(['a', -bar ' Eh) 

Na es Snace (Da =1) 





看 ， 就 是 这 么 简单 ! 除了 参数 处 理 之 外 ， 当 出 现 非 法 参数 时 ， 用 户 
还 需要 做 一 些 处 理 ， 处 理 完 成 后 ， 一 般 是 输出 提示 信息 并 退出 应 用 程 
序 。ArgumentParser 提 供 了 两 个 方法 函数 ， 分 别 是 exit(status=0， 
message=None) 和 error(message)， 可 以 省 了 import sys 再 调用 sys.exit() 的 
步骤 。 


Ons 


虽然 argparse 已 经 非常 好 用 ， 但 是 上 进 的 Pythonista 并 没有 止 
步 ， 所 以 他 们 发 明了 docopt， 可 以 认为 ， 已 是 比 argparse 更 先进 更 易 
用 的 命令 令 行 参数 处 理 澡 。 它 甚 至 不 需要 编 写 代 人 码 ，》 0 
argparse 输 出 的 帮助 信息 即 可 。 这 是 因为 它 根 据 和 常见 ,的 帮助 信息 
义 了 一 套 领 域 特定 语言 (DSL) ， 通 过 这 个 DSL Parser 参 数 生成 处 
理 命令 行 参数 的 代码 ， 从 而 实现 对 命 命 了 pe 因为 docopt 
ns 所 以 在 此 不 多 介绍 ， 有 兴趣 的 读者 可 以 自行 去 
其 官网 (http://docopt.org/) 学 习 。 

















建议 42: 使 用 pandas 处 理 大 型 CSV 文 件 


CSV (Comma Separated Values) 作为 一 种 喜 号 分 隔 型 值 的 纯 文本 
格式 文件 ， 在 实际 应 用 中 经 常用 到 ， 如 数据 库 数据 的 导入 导出 、 数 据 分 
析 中 记录 的 存储 等 。 因 此 很 多 语言 都 提供 了 对 CSV 文 件 处 理 的 模块 ， 
Python 也 不 例外 ， 其 模块 csv 提 供 了 一 系列 与 CSV 处 理 相 关 的 API。 我 们 
先 来 看 一 下 其 中 几 个 常见 的 API: 


1) reader(csvfile[, dialect='excel'][, fmtparam])， 主 要 用 于 CSV 文 件 的 
读 取 ， 返 回 一 个 reader 对 象 用 于 在 CSV 文 件 内 容 上 进行 行 迭 代 。 


参数 csvfile， 需 要 是 文 持 迭代 (〈Iterator) 的 对 象 ， 通 常 对 文件 
Cfile) 对 象 或 者 列表 (Uist) 对 象 都 是 适用 的 ， 并 且 每 次 调用 next(0 方 法 
的 返回 值 是 字符 串 〈string) ; 参数 dialect 的 默认 值 为 excel， 与 excel 兼 
容 ; fmtparam 是 一 系列 参数 列表 ， 主要 用 于 需要 上 履 盖 默认 的 Dialect 设 置 
的 情形 。 当 dialect 设 置 为 excel 的 时 候 ， 默 认 Dialect 的 值 如 下 : 














class excel(Dialect): 




















har = 2 
上 于 对 特殊 符号 加 引号 ， 常 见 的 引号 为 " 
ue 

















有 于 控制 quote 
符号 出 现 的 办 的 人 式 
skipinitialspace = False # 
设置 为 true 
的 时 候 delimiter 

后 面 的 空格 将 会 忽略 
lineterminator = '\r\n’ # 
Be 








oting = QUOTE_MINIMAL 
是 否 在 字段 前 中 引号 ， QUOTE_MINIMAL 
表示 仅 当 一 个 字段 包 

含 引 号 或 者 定义 符号 的 时 候 才 加 引号 








2) csv.writer(csvfile, dialect='excel', **fmtparams)， 用 于 写 入 CSV 文 
件 。 参 数 同 上 。 来 看 一 个 使 用 例子 。 





with open('data.csv', 'wb') as csvfile: 
csvwriter = csv.writer(csvfile, dialect='excel',delimiter="|",quotechar="'"', 
quoting=csv .QUOTE_MINIMAL) 
csvwriter .writerow(["1/3/09 14:44","'Product1'","1200''","Visa","Gouya"]) 
# 


写 入 行 
输出 形式 为 :1/3/09 14:44|'Product1'|1260''|Visal|Gouya 


EF=== = 一 一 = 


3) csv.DictReader(csvfile, fieldnames=None, restkey=None, 
restVal=None，dialect='excel，*args，**kwds)， 同 reader() 方 法 类 似 ， 不 同 
的 是 将 读 入 的 信息 映射 到 一 个 字典 中 去 ， 其 中 字典 的 key 由 fieldnames 指 
定 ， 该 值 省 略 的 话 将 使 用 CSV 文 件 第 一 行 的 数据 作为 key 值 。 如 果 读 入 
行 的 字段 的 个 数 大 于 fednames 中 指定 的 个 数 ， 多 余 的 字段 名 将 会 存放 
在 restkey 中 ， 而 restval 主 要 用 于 当 读 取 行 的 域 的 个 数 小 于 fieldnames 的 时 
候 ， 它 的 值 将 会 被 用 作 剩 下 的 key 对 应 的 值 。 








4) csv.DictWriter(csvfile, fieldnames, restval=", extrasaction='raise, 
dialect='excel', *args, **kwds)， 用 于 支持 字典 的 写 入 。 





import csv 
#DictWwriter 


with open('test.csv', 'wb') as csv_file: 

# 

设置 列 名 称 
FIELDS. 太 = ['Transaction_date'， 'Product', 'Price', 'Payment_Type'] 
Witer = csv.Dictwriter(csv_ file, fieldnames=FIELDS) 

写 入 列 名 称 


writer .writerow(dict(zip(FIELDS, FIELDS))) 
d= {'Transaction_date':'1/2/09 6:17','Product':'Product1', 'Price':'1200', 
'Payment_Type':'Mastercard'} 
# 
写 入 一 行 ”Writer . writerow(d) 
with open('test.csv', 'rb') as csv_file: 
for d in CSV， De file): 


print 
#0utput d is: 5 Product 'Product1', 'Transaction_date': '1/2/09 6:17', 
'Price' '1200' ‘payment_Type': 'Mastercard'} 





csv 模 块 使 用 非常 简单 ， 基 本 可 以 满足 大 部 分 需求 。 但 你 有 没有 思 
考 过 这 个 问题 ， 有些 应 用 中 需要 解析 和 人 处理 的 CSV 文 件 可 能 有 上 白 MB 
甚至 儿 个 GB， 这 种 情况 下 csv 模 块 是 否 能 够 应 付 呢 ?” 先 来 做 个 实验 ， 临 
J 的 CSV 文 件 并 将 其 加 载 到 内 存 中 ， 看 看 会 有 什么 问题 友 








>>> f = open('large.csv', "wb") 

>>> f.seek(1073741824-1) # 
创建 大 文件 的 技巧 

>>> f.write("\0") 

>>> f.close() 

>>> import os 


>>> os.stat("large.csv").st_size # 
输出 文件 的 大 小 
1073741824L 
>>> with open("large.csv", "rb") as csvfile: 
mycsv = csv.reader(csvfile,delimiter=';') 
for row in mycsv: 


print row 


Traceback (most recent call last): 

File "<stdin>", line 3, in <module> 
MemoryError # 
发 生 了 内 存 异常 





>>> 


上 面 的 例子 中 当 企 图 读 入 这 个 CSV 文 件 的 时 候 抛 出 了 MemoryError 
异常 。 这 是 为 什么 ? 因为 csv 模 块 对 于 大 型 CSV 文 件 的 处 理 无 能 为 力 。 
这 种 情况 下 就 需要 考虑 其 他 解决 方案 了 ，pandas 模 块 便 是 较 好 的 选择 。 


Pandas 即 Python Data Analysis Library， 是 为 了 解决 数据 分 析 而 创建 
的 第 三 方 工具 ， 它 不 仪 提供 了 丰富 的 数据 模型 ， 而 且 支 持 多 种 文件 格式 
处 理 ， 包 括 CSV、HDF5、HIML 等 ， 能 够 提供 高 效 的 大 型 数据 处 理 。 
其 支持 的 两 种 数据 结构 Series 和 DataFrame 是 数据 处 理 的 基础 。 
下 面 先 来 介绍 这 两 种 数据 结构 。 


'Series: 它 是 一 种 类 似 数组 的 带 索 引 的 一 维 数据 结构 ， 文 持 的 类 型 
与 NumPy 兼 容 。 如 果 不 指定 索引 ， 默 认为 0 到 N-1。 通 过 obj.valuesO0 和 
obj.indexO 可 以 分 别 获取 值 和 索引 。 当 给 Series 传 递 一 个 字典 的 时 候 ， 
Series 的 索引 将 根据 字典 中 的 键 排序 。 如 果 传 入 字典 的 时 候 同 时 重新 指 
定 了 index 参 数 ， 当 index 与 字典 中 的 键 不 匹配 的 时 候 ， 会 出 现时 数据 丢 
失 的 情况 ， 标 记 为 NaN。 


在 pandas 中 用 函数 isnull0 和 notnull0 来 检测 数据 是 否 丢失 。 




















>>> obj1 = Series([1, 'a', (1,2), 3], index=['a', 'b', 'c', 'd']) 


lindex 


S:, Ghjeet 
>>> obj2=Series({"Book":"Python", "Author":"Dan", "ISBN":"011334", "Price":25}, inde 
x=["'book', 'Author', 'ISBM', 'Price']) 
下 了 
ue 


( 
ex 
键 不 匹配 ， 发 生 数 据 丢 失 
alse 





ISBM True # 
彰 定 的 index 

与 字典 的 键 不 匹配 ， 发 生 数 据 丢 失 
Price alse 














.DataFrame: 类 似 于 电子 表格 ， 其 数据 为 排 好 序 的 数据 列 的 集合 ， 
每 一 列 都 可 以 是 不 同 的 数据 类 型 ， 它 类 似 于 一 个 二 维 数据 结构 ， 支 持 行 
和 列 的 索引 。 和 Series 一 样 ， 索 引 会 上 自动 分 配 并 且 能 根据 指定 的 列 进行 
排序 。 使 用 最 多 的 方式 是 通过 一 个 长 度 相 等 的 列表 的 字典 来 构建 。 构 建 
一 个 DataFrame 最 常用 的 方式 是 用 一 个 相等 长 度 列表 的 字典 或 NumPy 数 
组 。DataFrame 也 可 以 通过 columns 指 定 序 列 的 顺序 进行 排序 。 














>>> data = {'OrderDate': ['1-6-10', '1-23-10', '2-9-10', '2-26-10', '3-15-10'], 
证 'Region': ['East', 'Central', 'Central', 'West', 'East'], 

FE 'Rep': ['Jones', 'Kivell', 'Jardine', 'Gill', 'Sorvino']} 
>>> 

>>> DataFrame(data,columns=['OrderDate', 'Region', 'Rep'])# 

通过 字典 构建 ， 按 照 cLloumns 

指定 的 顺序 排序 


orderDate Region Rep 
9 1-6-10 East Jones 
1 1-23-10 Central Kivell 
2 2-9-10 Central Jardine 
3 2-26-10 West Gill 
4 3-15-10 East Sorvino 





Pandas 中 处 理 CSV 文 件 的 函数 主要 为 read_csv() 和 to_csv() 这 两 个 ， 
其 中 read_csvO 读 取 CSV 文 件 的 内 容 并 返回 DataFrame，to_csv0O 则 是 其 逆 
过 程 。 两 个 函数 都 文 持 多 个 参数 ， 由 于 其 参数 众多 且 过 于 复杂 ， 本 市 不 
对 各 个 参数 一 一 介绍 ， 仅 选取 几 个 常见 的 情形 结合 具体 例子 介绍 。 下 面 
举例 说 明 ， 其 中 需要 处 理 的 CSV 文 件 格式 如 图 4-2 所 示 。 





OrderDate, Region, Rep, Item, Units,Unit Cost,Total 
1-6-10, East,Jones, Pencil,95, 1.99 , 189.05 
1-23-10,Central, Kiyell,Binder,50, 19.99 , 999.50 
2-9-10,Central,Jardine, Pencil,36, 4.99 ，179.64 
2-260-10,. tentralGill;Pens27, 19.99 : 539.73 
3-15-10,West, Sorvineg, Pencil,56, 2.99 ,， 167.44 
4-1-10,East,Jones,Binder,60, 4.99 , 299.40 
4-18-10,Central,Andrews, Pencil,75, 1.99 ,， 149.25 


图 4-2 CSV 文件 示例 
1) 指定 读 取 部 分 列 和 文件 的 行 数 。 具 体 的 实现 代码 如 下 : 








>>> df = pd.read csv("SampleData.csv",nrows=5,usecols=['OrderDate', 'Item', 'Total 
! 


>>> df 
OrderDate Item Total 
1-6-10 Pencil 189.05 
1-23-10 Binder 999.50 
2-9-10 Pencil 179.64 
en 539.73 
3-15-10 Pencil 167.44 


PoODPp 
DD 
1 
D 
oO 
© 





方法 read_csv() 的 参数 nrows 指 定 读 取 文件 的 行 数 ，usecols 指 定 所 要 





读 取 的 列 的 列 名 ， 如 果 没 有 列 名 ， 可 直接 使 用 索引 0、1、..、n-1。 上 壕 
两 个 参数 对 大 文件 处 理 非常 有 用 ， 可 以 避免 读 入 整个 文件 而 只 选取 所 需 
要 部 分 进行 读 取 。 


2) 设置 CSV 文 件 与 excel 兼 容 。dialect 参 数 可 以 是 string 也 可 以 是 
csv.Dialect 的 实例 。 如 果 将 图 4-2 所 示 的 文件 格式 改 为 使 用 “分 隔 符 ， 则 
需要 设置 dialect 相 关 的 参数 。error_bad lines 设 置 为 False， 当 记录 不 符合 
要 求 的 时 候 ， 如 记录 所 包含 的 列 数 与 文件 列 设置 不 相等 时 可 以 直接 忽略 
这 些 列 。 下 面 的 代码 用 于 设置 CSV 文 件 与 excel 兼 容 ， 其 中 分 隔 符 为 “>， 
而 error_bad_lines=False 会 直接 忽略 不 符合 要 求 的 记录 。 





>>> dia = csv. excel() 
>>> dia.delimiter="|" # 
设置 分 隔 符 
>>> pd.read_csv("SD.csv" 
Grocerbate Kouion Ren ten 和 Cost|Total 
9 1-6-10|East|Jones|Pencil|95|1.99 |189.05 
1 1-23- 10|CentrallKivell|Binder|50|19. 99 |999.50. 
2 pe 0 et 2 csv",dialect = dia,error. bad _lines= False) 
cted 7 fields, saw 10 

了 和 和 内 本 下 求 的 风 咎 中 略 

orderDate Region Rep Item Units Unit Cost Total 
9 1-6-10 East Jones Pencil 95 1.99 189.05 
>>> 





3) 对 文件 进行 分 块 处 理 并 返回 一 个 可 迭代 的 对 象 。 分 块 处 理 可 以 
避免 将 所 有 的 文件 载 入 内 存 ， 仅 在 使 用 的 时 候 读 入 所 需 内 容 。 人 参数 
chunksize 设 置 分 块 的 文件 行 数 ，10 表 示 每 一 块 包 含 10 个 记录 。 将 参数 
iterator 设 置 为 True 时 ， 返 回 值 为 TextFileReader， 它 是 一 个 可 迭代 对 象 。 
来 看 下 面 的 例子 ， 当 chunksize=10、iterator=True 时 ， 每 次 输出 为 包含 10 
个 记录 的 块 。 





>>> reader = pd.read table("SampleData.csv",chunksize=10, iterator=True) 
>>> reader 

<pandas.io.parsers.TextFileReader object at 90x0314BE70> 

>>> iter(reader).next() # 

将 TextFileReader 

转换 为 迭代 器 并 调用 next 

















方法 

OrderDate, Region, Rep, Item,Units,Unit Cost,Total # 
每 次 读 入 10 
行 
0 1-6-10, East, Jones, Pencil,95, 1.99 , 189.05 
1 1-23-10,Central,Kivell,Binder,50, 19.99 , 999.50 
2 2-9-10,Central,Jardine,Pencil,36, 4.99 ，179.64 
3 2-26-10, Central, 6ill, Pen,27, 19.99 , 539.73 
4 3-15-10, West, Sorvino, Pencil,56, 2.99 , 167.44 
号 4-1-10,East, Jones, Binder, 60, 4.99 , 299.40 
6 4-18-10,Central,Andrews,Pencil,75, 1.99 , 149.25 
5-5-10,Central, Jardine,Pencil,90, 4.99 , 449.10 
8 5-22-10, West, Thompson, Pencil,32, 1.99 ，63.68 
9 6-8-10, East, Jones, Binder,60, 8.99 , 539.40 


= 一 二 = 一 3 





4) 当 文 件 格式 相似 的 时 候 ， 文 持 多 个 文件 合并 处 理 。 以 下 例子 用 
于 将 3 个 格式 相同 的 文件 进行 合并 处 理 。 





>>> filel 


elst = 0S, Listdir("test") 
» print £4 


>> lelst # 
同时 存在 3 
个 格式 相同 的 文件 

I V rs3.68Y'] 

chdir("test 

>>> dfs =[pd.read_csv(f) for f in filelst] 
>>> total_ df = pd.concat(dfs) # 
将 文件 合并 


>>> total_df 


OrderDate Region Item Units Unit Cost Total 


ep 
Jones Pencil 95 1.99 189.05 
Kivell 


0 1-6-10 East 
1 1-23-10 Central Binder 50 19.99 999.5 





了 解 完 pandas 后 ， 读 者 可 以 自行 实验 一 下 使 用 pandas 处 理 前 面 生成 
的 1GB 的 文件 ， 看 看 还 会 不 会 抛 出 MemoryError 有 寞 第 。 








在 处 理 CSV 文 件 上 ， 特 别 是 大 型 CSV 文 件 ，pandas 不 仅 能 够 做 到 与 
csv 模 块 兼容 ， 更 重要 的 是 其 CSV 文 件 以 DataFrame 的 格式 返回 ，pandas 
对 这 种 数据 结构 提供 了 非常 丰富 的 处 理 方 法 ， 同 时 pandas 文 持 文 件 的 分 
块 和 合并 处 理 ， 非 常 灵活 ， 由 于 其 底层 很 多 算法 采用 Cython 实 现 运行 速 
度 较 快 。 实 际 上 pandas 在 专业 的 数据 处 理 与 分 析 领 域 ， 如 金融 等 行业 已 
经 得 到 广泛 的 应 用 。 





建议 43: 一 般 情 况 使 用 ElementTree 解 析 XML 


xml.dom.minidom 和 xml.sax 大 概 是 Python 中 解析 XML 文 件 最 广 为 人 
知 的 两 个 模块 了 ， 原 因 一 是 这 两 个 模块 自 Python 2.0 以 来 就 成 为 Python 的 
标准 库 ; 二 是 网 上 关于 这 两 个 模块 的 使 用 方面 的 资料 最 多 。 作 为 主要 解 
析 XML 方 法 的 两 种 实现 ，DOM 需 要 将 整个 XML 文 件 加 载 到 内 存 中 并 解 
析 为 一 柠 树 ， 虽 然 使 用 较为 简单 ， 但 占用 内 存 较 多 ， 人 性 能 方面 不 占 优 
势 ， 并 且 不 够 Pythonic; 而 SAX 是 基于 事件 张 动 的 ， 虽 不 需要 全 部 装 入 
XML 文件 ， 但 其 处 理 过 程 却 较为 复杂 。 实 际 上 Python 中 对 XML 的 处 理 
还 有 更 好 的 选择 ，ElementTree 便 是 其 中 一 个 ， 一 般 情 况 下 使 用 
ElementTree 便 已 足够 。 它 从 Python2.5 开 始 成 为 标准 模块 ，cElementTree 
是 ElementTree 的 Cython 实 现 ， 速 度 更 快 ， 消 耗 内 存 更 少 ， 性 能 上 更 占 优 
势 ， 在 实际 使 用 过 程 中 应 该 尽量 优先 使 用 cElementTree。 由 于 两 者 使 用 
方式 上 完全 兼容 本 文 将 两 者 看 做 一 个 物件 ， 除 非 说 明 不 再 刻意 区 分 。 
ElementTree 在 解析 XML 文件 上 有 具有 以 下 特性 : 


使 用 简单 。 它 将 整个 XML 文 件 以 树 的 形式 展示 ， 每 一 个 元 素 的 属 
性 以 字典 的 形式 表示 ， 非 常 方 便 处 理 。 


:内 存 上 消耗 明显 低 于 DOM 解 析 。 由 于 ElementTree 底 层 进行 了 一 定 
的 优化 ， 并 且 它 的 iterparse 解 析 工 具 支 持 SAX 事 件 驱 动 ， 能 够 以 迭代 的 
形式 返回 XML 部 分 数据 结构 ， 从 而 避免 将 整个 XML 文 件 加 载 到 内 存 
中 ， 因 此 性 能 上 更 优化 ， 相 比 于 SAX 使 用 起 来 更 为 简单 明了 。 


文 持 XPath 碍 询 ， 非 党 方便 获取 任意 节点 的 值 。 


这 里 需要 说 明 的 是 ， 一 般 情况 指 的 是 : XML 文件 大 小 适中 ， 对 性 
能 要 求 并 非 非常 严格 。 如 有 果 在 实际 过 程 中 需要 处 理 的 XML 文 件 大 小 在 
GB 或 近似 GB 级 别 ， 第 三 方 模块 lxml 会 获得 较 优 的 处 理 结果 。 关 于 lxml 
模块 的 介绍 请 参考 本 章 后 续 小 节 或 者 参考 文章 “使 用 由 Python 编 写 的 lxml 
实现 高 性 能 XML 人 解析 ”， 可 通过 链接 
http://www.ibm.com/developerworks/cn/xml/x-hiperfparse/ 可 以 访问 。 


下 面 结合 具体 的 实例 来 说 明 elementtree 解 析 XML 文 件 常用 的 方法 。 
需要 解析 的 XML 实 例如 下 : 






































<systems> 
<system platform="linux" name="linuxtest"> 
<purpose>automation test</purpose> 
<system type>virtual</system type> 
<ip_address/> 
<commands_on_boot> 
<command_details> 
<!-- Set root password. --> 
<command>echo root:mytestpwd | sudo /usr/ 
sbin/chpasswd</command> 
<userid>root2</userid> 
<password>Password</password> 
</command_details> 
<command_details> 
<command>mkdir /TEST; chmod 777 /TEST</command> 
</command_details> 
</commands_on_boot> 
</system> 
<system platform="aix" name="aixtest"> 
<purpose>manual test</purpose> 
<system_ type>virtual</system type> 
<ip_address/> 
<commands_on_boot> 
<command_details> 
<!-- Set root password. --> 
<command>echo root:mytestpwd | sudo /usr/ 
sbin/chpasswd</command> 
<userid>root2</userid> 
<password>Password</password> 
</command_details> 
<command_details> 
<command>mkdir /TEST; chmod 777 /TEST</command> 
</command_details> 
</commands_on_boot> 
</system> 
</systems> 





模块 ElementTree 主 要 存在 两 种 类 型 ElementTree 和 Element， 它 们 支 
持 的 方法 以 及 对 应 的 使 用 示例 如 表 4-1 和 表 4-2 所 示 。 


表 4-1 ElementTree 主 要 的 方法 和 使 用 示例 


主要 的 方法 、 属 性 万 法 说 明 以 及 示例 

返回 Xml 文档 的 根 第 所 
>>> import Xmletree ElementTree as ET 
>>> tree = ET.ElementTree(file ="test.xml") 
>>> root= tree,getroot() 

getroot() | 
>>> print root 
<Element Systems at 0x20cb 人 的 > 
>>> print root,tag 
Systems 
同 Element 相关 的 方法 类 似 ， 只 是 从 跟 节点 开始 搜索 ( 见 表 小 2 ) 
>>> for 1 in rootfindall("system/ purpose"); 
,print ,text 


find(mateh) 
findall(match) 
findtext(mateh, default=None) 


utomation test 

manual test 

>>> print rootfindtext("system/purpose') 

automation test 

>>> print rootfind("system/purpose”) 

<Element purpose at Ox26d2170> 

从 xml 根 竺 只 开始 ， 根 据 传人 的 元 素 的 tag 返回 所 有 的 元 素 集合 的 迭代 人 
>>> foriin tree.iter(tag = "Command 

Print Ltext 

I echo root:mytestpwd | sudo /usr/sbin/chpasswd 
mkdir /TEST, chmod 777 /TEST 

echo root:mytestpwd | sudo /usr/sbin/chpasswd 
mkdir /TEST; chmod 777 /TEST 


主要 的 方法 、 属 性 方法 说 明 以 及 示例 
根据 传人 的 tag 名 称 或 者 path 以 从 代 器 的 形式 返回 所 有 的 子 元 素 
>>> for ln tree.iterfind("system/purpose"): 
.print Ltext 
iterfind(match) 
automation test 
manual test 





表 4-2 Element 主 要 的 方法 和 使 用 示例 


主要 的 方法 、 属 性 方法 说 明 以 及 示例 
字符 电 ， 用 来 表示 元 素 所 代表 的 名 称 


Ll 
% >>> print root[| ].tag# 输 出 system 
表示 元 素 所 对 应 的 具体 什 
text 有 Eh i ps 
>>> printroot[1]text# 输 出 空中 
用 字典 表示 的 元 素 的 属性 
attrib 


和 i 


>>> print root[] ].attrib # 输出 和 Platform ‘aix', name' ‘aixtest'} 


根据 元 素 属性 字典 的 key 值 获取 对 应 的 值 ， 如 果 找 不 到 对 应 的 属性 ， 则 返回 
get(key, default=None) default 
>>> print root[ |].attrib.get("platform") # 输出 aix 


将 元 素 属 性 以 名称, 但) 的 形式 返回 


Items() >>> print root |] items() #('platform’, ‘aix'), (name', ‘aixtest')] 
i 返回 元 素 属性 的 key 值 集合 
) >>> print root[|].keys()# 输 出 [platform', ‘mame 
根据 传人 的 tag 名 称 或 者 path 返 回 第 一 个 对 应 的 element 对象， 或 者 返回 
find(mateh) 
None 
findall(mateh) 根据 传人 的 tag 名 称 或 者 path 以 列表 的 形式 返回 所 有 符合 条 件 的 元 素 


根据 传人 的 tag 名 称 或 者 path 返回 第 一 个 对 应 的 element 对 象 对 应 的 值 ， 即 
text 属性 ， 如 果 找 不 到 则 返回 default 的 设置 
根据 传人 的 元 素 的 名 称 返回 其 所 有 的 子 节点 


>>> foriin list(root,findall("system/system type 


findtext(mateh, default=None) 


list(elem) », print Ltext 


# 输 出 virtual virtural 


前 面 我 们 提 到 elementree 的 iterparse 工 具 能 够 避免 将 整个 XML 文件 加 
载 到 内 存 ， 从 而 解决 当 读 入 文件 过 大 内 存 而 消耗 过 多 的 问题 。iterparse 
返回 一 个 可 以 迭代 的 由 元 组 (时 间 , 元 素 ) 组 成 的 流 对 象 ， 文 持 两 个 参数 
source 和 events， 其 中 event 有 4 种 选择 start、end、 startns 和 和 
endns 〈 默 认为 end) ， 分 别 与 AX 解析 的 startElement、endElement、 
startElementNS 和 endElementNS 一 一 对 应 。 


本 节 最 后 来 看 一 下 iterparse 的 使 用 示例 : 统计 userid 在 整个 XML 出 现 
的 次 数 。 

















>>> Count = 0 
>>> for event,elem in ET.iterparse("test.xml"):# 
对 iterparse 
的 返回 值 进行 迭代 
。 if event =='end ' : 
if elem.tag =='Userid ' : 
count+=1 
elem.clear() 


>>> print count 
2 


人 


建议 44: 理解 模块 pickle 优 务 


在 实际 应 用 中 ， 序 列 化 的 场景 很 常见 ， 如 : 在 磁盘 上 保存 当前 程序 
的 状态 数据 以 便 重 启 的 时 候 能 够 重新 加 载 ， 多 用 户 或 者 分 布 式 系统 中 数 
据 结 构 的 网 络 传输 时 ， 可 以 将 数据 序列 化 后 发 送 给 一 个 可 信 网 络 对 端 ， 
接收 者 进行 反 序 列 化 后 便 可 以 重新 恢复 相同 的 对 象 ; session 和 cache 的 存 
储 等 。 序 列 化 ， 简 单 地 说 就 是 把 内 存 中 的 数据 结构 在 不 丢失 其 身份 和 类 
型 信息 的 情况 下 转 成 对 象 的 文本 或 二 进 制 表示 的 过 程 。 对 象 序列 化 后 的 
形式 经 过 反 序 列 化 过 程 应 该 能 恢复 为 原 有 对 象 。Python 中 有 很 多 支持 序 
列 化 的 模块 ， 如 pickle、json、marshal 和 shelve 等 。 最 广为人知 的 为 
pickle， 我 们 来 仔细 分 析 一 下 这 个 模块 。 


pickle 估 计 是 最 通用 的 序列 化 模块 了 ， 它 还 有 个 C 语 言 的 实现 
cPickle， 相 比 pickle 来 说 具有 较 好 的 性 能 ， 其 速度 大 概 是 pickle 的 1000 
倍 ， 因 此 在 大 多 数 应 用 程序 中 应 该 优先 使 用 cPickle〈 注 : cPickle 除 了 不 
能 被 继承 之 外 ， 它 们 两 者 的 使 用 基本 上 区 别 不 大 ， 除 有 特殊 情况 ， 本 节 
将 不 再 做 具体 区 分 ) 。pickle 中 最 主要 的 两 个 函数 对 为 dump() 和 lo0ad0)， 
分 别 用 来 进行 对 象 的 序列 化 和 反 序 列 化 。 


:pickle.dump(obj， file[， protocol]): 序列 化 数据 到 一 个 文件 描述 符 
《一 个 打开 的 文件 、 套 接 字 等 ) 。 参 数 obj 表 示 需 要 序列 化 的 对 象 ， 包 
括 布尔 、 数 字 、 字 符 串 、 字 节 数 组 、None、 列 表 、 元 组 、 字 典 和 集合 等 
基本 数据 类 型 ， 此 外 picike 还 能 够 处 理 循 环 ， 递 归 引 用 对 象 、 类 、 函 数 
以 及 类 的 实例 等 。 参 数 file 支 持 write() 方 法 的 文件 句柄 ， 可 以 为 真实 的 文 
件 ， 也 可 以 是 StringIO 对 象 等 。protoco] 为 序列 化 使 用 的 协议 版 本 ，0 表 
示 ASCII 协 议 ， 所 序列 化 的 对 象 使 用 可 打印 的 ASCII 码 表示 ; 1 表示 老式 
的 二 进 制 协议 ;2 表示 2.3 版 本 引入 的 新 二 进 制 协议 ， 比 以 前 的 更 高 效 。 
其 中 协议 0 和 1 兼容 老 版 本 的 Python。protocol 默 认 值 为 0。 


load(file): 表示 把 文件 中 的 对 象 恢 复 为 原来 的 对 象 ， 这 个 过 程 也 被 
称 为 反 序列 化 。 


来 看 一 下 load0 和 dumpO 的 示例 。 


























ickle 
me" : "Python", "type" : "Language", "version" : "2.7.5"} 


en("picklefile.dat"，"wb") # 
aA 
ump(my_data, fp) # 

















se() 


> Fp. open(ypicklefile:dator bo) 
= pickle.load(fp) # 


亿 证 ， 
的 
>>> 
em 


>>> 
Co 
ri 


本 Vee '2.7.5', 'type': 'Language', 'name': 'Python'} 





pickle 之 所 以 能 成 为 通用 的 序列 化 模块 ， 与 其 良好 的 特性 是 分 不 开 
的 ， 总 结 为 以 下 几 点 : 


1) 接口 简单 ， 容 易 使 用 。 通 过 dump() 和 load() 便 可 轻易 实现 序列 化 
和 上 反 序 列 化 。 


2) pickle 的 存储 格式 具有 通用 性 ， 能 够 被 不 同 平台 的 Python 解析 器 
共享 ， 比 如 ，Linux 下 序列 化 的 格式 文件 可 以 在 windows 平 台 的 Python 解 
析 器 上 进行 反 序 列 化 ， 兼 容 性 较 好 。 


3) 支持 的 数据 类 型 广泛 。 如 数字 、 布 尔 值 、 字 符 串 ， 只 包含 可 序 
列 化 对 象 的 元 组 、 字 典 、 列 表 等 ， 非 租 套 的 函数 、 类 以 及 通过 类 的 
_ dict 或 者 ”getstate (0 可 以 返回 序列 化 对 象 的 实例 等 。 


4) pickle 模 块 是 可 以 扩展 的 。 对 于 实例 对 象 ，pickle 在 还 原 对 象 的 
时 候 一 般 是 不 调用 _init (函数 的 ， 如 果 要 调用 _init 0 进行 初始 化 ， 
对 于 古典 类 可 以 在 类 定义 中 提供 ”getinitargs_ 0 函数 ， 并 返回 一 个 元 
组 ， 当 进行 npickle 的 时 候 ，Python 就 会 自动 调用 _ init_()， 并 把 
getinitargs_() 中 返回 的 元 组 作为 参数 传递 给 ”init _()， 而 对 于 新 式 
类 ， 可 以 提供 ”getnewargs_ 0 来 提供 对 象 生成 时 候 的 参数 ， 在 unpickle 
的 时 候 以 Class. new_ (Class, *arg) 的 方式 创建 对 象 。 对 于 不 可 序列 化 的 
对 象 ， 如 sockets、 文 件 句 柄 、 数 据 库 连接 等 ， 也 可 以 通过 实现 pickle 协 
议 来 解决 这 些 局 限 ， 主 要 是 通过 特殊 方法 es (和 __setstate_0 
来 返回 实例 在 被 pickle 时 的 状态 。 来 看 以 下 示例 : 








import cPpickle pickl 
ed tRead 
def _ init_ (self，Tfil ) 
de ame # 
文件 名 称 
self.file = open(filename) # 
打开 人 
self.postion = self.file.tell() # 
人 


Se Lee el 1 
1 file.readline() 


self.postion = self.file.tell() 
if not line: 
return None 
if 3 Dn \n'): 
= linel: -1] 
Re oi: %s" % (self.postion, line) 
f _ getstate (self): 
记 i 
时 候 的 状态 
state = self._ dict_ _.copy() # 
ce 
时 的 字典 信息 
del state['file'] 
return state 
setstate__(self, state): # 
设置 及 局 区 TE 的 
self._ dict .update(state) 
file = open(self.filename) 
self.file = file 
reader = TextReader ("zen.txt") 
print(reader.readline()) 
eh tb readline( )) 
pickle.dumps(reader) # 








在 dum 

的 时 候 会 里 认 调用 _getstate 

new_ reader = pickle.1loads(s) # 
:loads 

















的 时 候 会 默认 调用 __setstate__ 
print(new_reader.readline()) 








) 能 够 自动 维护 对 象 间 的 引用 ， 如 果 一 个 对 象 上 存在 多 个 引用 ， 
pickle 后 不 会 改变 对 象 间 的 引用 ， 并 且 能 够 自动 处 理 循 环 和 递归 引用 。 























>>> a = ['a','b'] 
Se =a #b 
引用 对 象 a 

>>> b.append('c') 

>>> p = pickle.dumps((a,b)) 

>>> al,b1 = pickle.loads(p) 

>>> al 

['a', 'b', 'c'] 

>>> bt 

['a', c'] 

>>> al. Rd d') # 
反 序 列 化 对 ad 


对 象 和 8 信和 人 响 到 b1 
>>> 


['a', Yip, 'c', 'd'] 





但 pickle 使 用 也 存在 以 下 一 些 限制 : 


.pickle 不 能 保证 操作 的 原子 性 。pickle 并 不 是 原子 操作 ， 也 就 是 说 
在 一 个 pickle 调 用 中 如 果 发 生 异 常 ， 可 能 部 分 数据 已 经 被 保存 ， 男 外 如 
kaa > ， 那 么 可 能 超出 Python 的 最 大 递归 深度 。 递 归 深 
度 可 以 通过 sys.setrecursionlimit() 进 行 扩展 。 


:pickle 存 在 安全 性 问题 。Python 的 文档 清晰 地 表明 它 不 提供 安全 性 
保证 ， 因 此 对 于 一 个 从 不 可 信和 的 数据 源 接收 的 数据 不 要 轻易 进行 反 序列 
化 。 由 于 loads() 可 以 接收 字符 串 作为 参数 ， 这 意味 着 精心 设计 的 字符 串 
给 入 侵 提 供 了 一 种 可 能 。 在 Pthon 解 释 器 中 输入 代码 
pickle.loads("cos\nsystem\n(S'dir\ntR.") 便 可 查看 当前 目录 下 所 有 文件 。 











如 果 将 dir 蔡 换 为 其 他 更 具有 破坏 性 的 命令 将 会 带 来 安全 隐患 。 如 果 要 进 
一 步 提高 安全 性 ， 用 户 可 以 通过 继承 类 pickle.Unpickler 并 重 写 
find_class() 方 法 来 实现 。 


.Dickle 协 议 是 Python 特定 的 ， 不 同 语言 之 间 的 兼容 性 难以 保障 。 用 
Python 创建 的 pickle 文 件 可 能 其 他 语言 不 能 使 用 ， 如 Perl、PHP、Java 
簿 
so 


建议 45: 序列 化 的 万 一 个 不 错 的 选择 一 一 JSON 


JSON (JavaScript Object Notation) 是 一 种 轻 量 级 数据 交换 格式 ， 
它 基 于 JavaScript 编 程 语言 的 一 个 子 集 ， 于 1999 年 12 月 成 为 一 个 完全 独立 
于 语言 的 文本 格式 。 由 于 其 格式 使 用 了 其 他 许多 流行 编程 的 约定 ， 如 
C、C++、C#、Java、JS、Python 等 ， 加 之 其 简单 灵活 、 可 读 性 和 互 操 
作 性 较 强 、 易 于 解析 和 使 用 等 特点 ， 逐 渐变 得 流行 起 来 ， 甚 至 有 代 蔡 
XML 的 趋势 。 关 于 JSON 和 XML 之 间 的 优 劣 ， 一 直 有 很 多 争论 ， 本 书 并 
不 打算 对 这 两 者 之 间 的 是 是 非 非 做 详尽 的 分 析 ( 笔 者 的 观点 是 两 者 各 有 
所 长 ， 在 相当 长 的 时 间 里 还 会 共存 共 荣 ， 这 里 关注 的 是 JSON 用 于 序 
列 化 方面 的 优势 。 在 进行 详细 讨论 之 前 ， 我 们 先 来 看 看 Python 语言 中 对 
JSON 的 支持 现状 。 


Python 中 有 一 系列 的 模块 提供 对 JSON 格 式 的 文 持 ， 如 simplejson、 
cjson、yajl、ujson， 上 自 Python2.6 后 又 引入 了 标准 库 JSON。 人 简单 来 说 
cjson 和 ujson 是 用 C 来 实现 的 ， 速 度 较 快 。 据 cjson 的 文档 表述 : 其 速率 比 
纯 Python 实 现 的 json 模 块 大 概要 快 250 倍 。yajl 是 Cpython 版 本 的 JSON 实 
现 ， 而 simplejson 和 标准 库 JSON 本 质 来 说 无 多 大 区 别 ， 实 际 上 Python2.6 
中 的 json 模 块 就 是 simplejson 减 去 对 Python2.4、2.5 的 支持 以 充分 利用 最 
新 的 兼容 未 来 的 功能 。 不 过 相对 于 simplejson， 标 准 库 更 新 相对 较 慢 ， 
Python2.7.5 中 simplejson 对 应 的 版 本 为 2.0.9， 而 最 新 的 simplejson 的 版 本 
在 实际 应 用 过 程 中 将 这 两 者 结合 较 好 的 做 法 是 采用 如 下 import 
Ba 











try: import simplejson as json 
except ImportError: import json 


本 节 仍 采用 标准 库 JSON 来 做 一 些 探讨 。Python 的 标准 库 JSON 提 供 
的 最 常用 的 方法 与 pickle 类 似 ，dump/dumps 用 来 序列 化 ，load/loads 用 来 
反 序列 化 。 需 要 注意 的 json 默 认 不 文 持 非 ASCII-based 的 编码 ， 如 load 方 
法 可 能 在 处 理 中 文字 符 时 不 能 正常 显示 ， 则 需要 通过 encoding 参 数 指定 
对 应 的 字符 编码 。 在 序列 化 方面 ， 相 比 pickle，JSON 具 有 以 下 优势 : 


1) 使 用 简单 ， 支 持 多 种 数据 类 型 。JSON 文 档 的 构成 非常 简单 ， 仅 
存在 以 下 两 大 数据 结构 。 











名 称 / 值 对 的 集合 。 在 各 种 语言 中 ， 它 被 实现 为 一 个 对 象 、 记 录 、 
结构 、 字 典 、 散 列表 、 键 列表 或 关联 数组 。 


“ 值 的 有 序列 表 。 在 大 多 数 语言 中 ， 它 被 实现 为 数组 、 向 量 、 列 表 
或 序列 。 在 Python 中 对 应 文 持 内 数据 关于 包 掺 子 典 、 列表 、 字 符 串 、 整 
数 、 浮 点 数 、True、False、None 等 。JSON 中 数据 二 构 和 Python 中 的 转 
换 并 不 是 完全 一 一 对 应 ， 存 在 一 定 的 差异 ， 读 者 可 以 自行 查阅 文档 。 
Python 中 一 个 JSON 文 档 可 以 分 解 为 如 图 4-3 所 示 形 式 。 


2) 存储 格式 可 读 性 更 为 友好 ， 容 易 修 改 。 相 比 于 pickle 来 说 ，json 
的 格式 更 加 接近 程序 员 的 思维 ， 修 改 和 阅读 上 要 容易 得 多 。dumps() 函 
数据 供 了 一 个 参数 indent 使 生成 的 json 文 件 可 读 性 更 好 ， 0 意味 着 “每 个 值 
中 独 一 行 ”* 大 于 0 的 数字 意味 着 “每 个 值 单 独 一 行 并 且 使 用 这 个 数字 的 
空格 来 缩 进 嵌 套 的 数据 吉 构 ”。 但 需要 注意 的 是 ， 这 个 参数 是 以 文件 大 
小 变 大 为 代价 的 。 如 图 4-4 展 示 的 是 这 两 种 格式 之 间 的 对 比 ， 其 中 
json.dumpsO 使 用 了 indent 参 数 输出 。 


3) json 文 持 跨 平 台 跨 语言 操作 ， 能 够 轻易 被 其 他 语言 解析 ， 如 
Python 中 生成 的 json 文 什 可 以 轻易 使 用 JavaScript 解 析 ， 互 操作 性 更 强 ， 
而 pickle 格 式 的 文件 只 能 在 Python 语言 中 文 持 。 此 外 json 原 生 的 JavaScript 
文 持 ， 客 户 端 浏览 器 不 需要 为 此 使 用 额外 的 解释 器 ， 特 别 适 用 于 Web 应 
用 提供 快速 、 紧 凑 、 方 便 的 序列 化 操作 。 此 外 ， 相 比 于 pickle，json 的 存 
储 格 式 更 为 紧凑 ， 所 占 空 间 更 小 。 





























用 4 形式 表示 的 对 象 
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图 4-3 json 文 档 分 解 图 








用 ! 形 式 表示 的 对 象 


一 个 或 多 个 用 ， 陪 开 的 
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图 4-4 pickle 和 json 文 件 格式 对 比 


4) 具有 较 强 的 扩展 性 。json 模 块 还 提供 了 编码 (JSONEncoder) 和 
解码 类 (JSONDecoder) 以 便 用 户 对 其 默认 不 文 持 的 序列 化 类 型 进行 扩 
展 。 来 看 一 个 例子 : 





>> d=datetime.datetime.now() 


i TypeError(repr(o) + " is not JSON serializable") 
TypeError: datetime.datetime(2013, 9, 15, 8, 54, 59, 851000) is not JSON seriali 
zable 





json 模 块 本 身 不 文 持 datetime 的 序列 化 ， 因 此 需要 对 json 本 喘 的 
JSONEncoder 进 行 扩展 。 有 多 种 方法 可 以 实现 ， 下 面 的 例子 是 其 中 实现 
乙 一 。 





import datetime 
from time import mktime 
try: import Simplejson as json 
except ImportError: import json 
class DateTimeEncoder(json.JSONEncoder ) : # 
对 JSONEncoder 
进行 扩展 
def default(self, obj): 
if isinstance(obj, datetime.datetime): 
return obj.strftime( '%Y-%m-%d %H:%M:%S ' ) 
elif isinstance(obj, date): 
return obj.strftime('%Y-%m-%d') 
eturn json.JSONEncoder. default(self， obj) 
ddatetime. datetime.now() 
print json.dumps(d, cls = DateTimeEncoder) # 


cls 
指定 编码 器 的 名 称 























最 后 需要 提醒 的 是 ，Python 中 标准 模块 json 的 性 能 比 pickle 与 cPickle 
和 还 。 如 末 对 厅 列 化 性 能 要 求 非常 融 的 场景 ， 可 以 选择 cPickle 模 块 。 图 
0 三 者 序列 化 时 随 着 数据 规模 增加 所 消耗 时 间 改 变 的 图 
列 。 
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图 4-5 pickle、json、cPickle 序 列 化 文件 时 性 能 比较 





建议 46: 使 用 traceback 获 取 栈 信息 


当 程 序 产 生 寞 常 的 时 候 ， 最 需要 面 对 寞 常 的 其 实 是 开发 人 员 ， 他 们 
需要 更 多 的 异常 提示 的 信息 ， 以 便 调试 程序 中 潜在 的 错误 和 问题 。 先 来 
看 一 个 简单 的 例子 : 














gList = ['a','b','c','d','e','f','g'] 
def f(): 
gList[5] 
return g() 
def g(): 
return h() 
def h(): 
del gList[2] 
return i() 
def i(): 
gList.append('i') 
print gList[7] 
if name, == "main __"' 
ry 





f() 

except IndexError as ex: 
print "Sorry,Exception occured,you accessed an element out of range" 
print ex 





上 述 程序 运行 输出 如 下 : 





Sorry,Exception occured,you accessed an element out of range 
list index out of range 








信息 提示 有 异常 产生， 对 于 用 户 这 点 还 算是 较为 友好 的 ， 那 么 对 于 
开发 人 员 ， 他 如 何 快速 地 知道 错误 发 生 在 哪里 昵 ? 逐 行 检 查 代 码 吗 ? 对 
于 简单 的 程序 ， 这 也 不 失 为 一 个 办 法 ， 但 在 较为 复杂 的 应 用 程序 中 这 个 
方法 束 显 得 有 扣 低 效 了 。 面 对 有 异 剃 开 友 人 员 最 希望 看 到 的 往往 是 异常 发 
生 时 候 的 现场 信息 ，traceback 模 块 可 以 满足 这 个 需求 ， 它 会 输出 完整 的 
栈 信息 。 将 上 述 代码 噶 间 部 分 修改 如 下 : 














except IndexError as ex: 
print "Sorry,Exception occured,you accessed an element out of range" 
print ex 
traceback.print_exc() 








程序 运行 会 输出 异常 友 生 时 候 完 整 的 栈 信 息 ， 包 括 调用 顺序 、 寞 营 


发 生 的 语句 、 错 误 类 型 等 。 





Sorry cepti don occured, you accessed an element out of rangelist index out of range 
Tr. acthack Lan recent call last): 
Fil a line 20, in <module> 
f( 
File "tracepy "sy ee: 24h 
return 


return 





traceback.print_exc() 方 法 打印 出 的 信息 包括 3 部 分 :错误 类 型 
i 错误 对 应 的 值 (list index out of range) 以 及 具体 的 trace 
言 息 ， 包括 文件 名 、 有 具体 的 行 号 、 函 数 名 以 及 对 应 的 源 代 码 。Traceback 

模块 提供 了 一 系列 方法 来 获取 和 显示 异常 发 生 时 候 的 trace 相 关 信 息 ， 下 
面 列举 几 个 常用 的 方法 : 





1) traceback.print_exception(type, value, traceback[, limit[, file]])， 根 
据 ]limit 的 设置 打印 栈 信息 ，file 为 None 的 情况 下 定位 到 sys.stderr， 否 则 则 
写 入 文件 ， 其 中 type、value、traceback 这 3 个 参数 对 应 的 值 可 以 从 
sys.exc_info() 中 获取 。 


2) raceback.print_exc([limit[， file]])， 为 print_exception0 函 数 的 缩 
写 ， 不 需要 传 入 type、value、traceback 这 3 个 参数 。 


3) traceback.format_exc([limit])， 与 print_exc() 类 似 ， 区 别 在 于 返回 
形式 为 字符 串 。 


4)traceback.extract_stack([file,[， limit)， 从 当前 栈 帧 中 提取 trace 信 


亚 





读者 可 以 参看 Python 文档 获取 更 多 关于 traceback 上 所 提供 的 抽取 、 格 
式 化 或 者 打印 程序 运行 时 候 的 栈 跟踪 信息 的 方法 。 本 质 上 模块 trackback 
获取 异常 相关 的 数据 都 是 通过 sys.exc_info() 函 数 得 到 的 。 当 有 异常 发 生 
的 时 候 ， 该 函数 以 元 组 的 形式 返回 (type, value, traceback)， 其 中 type 为 异 
曾 的 人 型， value 为 异常 本 身 ，traceback 为 异常 发 生 时 候 的 调用 和 堆栈 信 
居 ， 它 是 一 个 traceback 对 象 ， 对 象 中 包含 出 错 的 行 数 、 位 置 等 数据 。 上 
面 的 例子 中 也 可 以 通过 如 下 方式 输出 异常 友 生 时 候 的 详细 信息 : 














tb_type, a Ql ee = sys. info() 
for fi le me, linenu 站 nonianer source in eback.extract be _tb) 
pri RE "%-23s:%s n %s s()" % (filename, 0 inenum, source, funcname ) 





实际 上 除了 traceback 模 块 本 身 ，inspect 模 块 也 提供 了 获取 traceback 
对 象 的 接口 ，inspect.trace([context]) 可 以 返回 当前 帧 对 象 以 及 异常 发 生 
时 进行 捕获 的 帧 对 象 之 间 的 所 有 栈 帧 记录 列表 ， 因 此 第 一 个 记录 代表 当 
前 调用 对 象 ， 最 后 一 个 代表 异常 发 生 时 候 的 对 象 。 其 中 每 一 个 列表 元 素 
都 是 一 个 由 6 个 元 素 组 成 的 元 组 : 〈frame 对 象 ， 文 件 名 ， 当 前 行 号 ， 函 
数 名 ， 源 代码 列表 ， 妆 前 行 在 源 代码 列表 中 的 位 置 》。 本 市 开头 的 例子 
在 异常 部 分 使 用 inspect.trace() 来 获取 异 入 :发生 时 候 的 堆栈 信息 息 ， 其 部 分 
输出 结果 如 下 : 

















[(<frame objec ct at QOx022CB480> 
esti spect.py', 
23, 





此 外 如 果 想 进一步 退 踩 函数 调用 的 情况 ， 还 可 以 通过 inspect 模 块 的 
inspect.stackO 函 数 得 看 函数 层 级 调用 的 栈 相信 信息 。 因 此 ， 当 异常 发 生 
J 合理 使 用 上 述 模块 中 的 方法 可 以 快速 地 定位 程序 中 的 问题 所 
Es 


建议 47: 使 用 logging 记 录 日 志 信 息 


仅仅 将 栈 信息 输出 到 控制 台 是 远 远 不 够 的 ， 更 为 常见 的 是 使 用 日 过 
保存 程序 运行 过 程 ， pb 的 相关 信息 ， 如 运行 时 间 、 描 述 信 息 以 及 和 前 误 或 者 
异常 发 生 时 候 的 特定 上 下 文 信息 。 。Python 中 自 带 的 logging 模 抉 提供 了 日 
志 功 能 ， 它 将 logger 的 level 分 为 5 个 级 别 〈 如 表 4-3 所 示 ) ， 可 以 通过 
Logger.setLevel(lv]) 来 设置 ， 其 中 DEBUG 为 最 低级 别 ，CRITICAL 为 最 
高 级 别 ， 默 认 的 级 别 为 WARNING。 























表 4-3 日 志 级 别 
Level 使 用 情形 
DEBUG 评 细 的 信息 ， 在 追 昧 问题 的 时 候 使 用 
INFO 正常 的 信息 
WARNING 此 不 可 预见 的 问题 发 生 ， 或 者 将 要 发 生 ， 如 磁盘 空间 低 等 ， 但 不 影响 程序 的 运 和 
FRROR 由 于 某 些 严重 的 问题 ， 程 序 中 的 一 些 功能 受到 影响 
CRITICAL 严重 的 答 误 ， 或 者 程序 本 生 不 能 够 继续 运行 


logging lib 包 含 以 下 4 个 主要 对 象 : 


1) logger。logger 是 程序 信息 输出 的 接口 ， 它 分 散在 不 同 的 代码 
中 ， 使 得 程序 可 以 在 运行 的 时 候 记 录 相 应 的 信息 ， 并 根据 设置 的 日 志 级 
别 或 filter 来 决定 哪些 信忠 需要 输出 ， 并 将 这 些 信 息 分 发 到 其 关联 的 
handler。 和 常用 的 方法 有 Logger.setLevel()、Logger.addHandler()、 
Logger.removeHandler()、Logger.addFilter()、Logger.debug()、 
Logger.info()、Logger.warning()、Logger.error()、etLogger() 等 。 


2) Handler。Handler 用 来 处 理 信 息 的 输出 ， 可 以 将 信息 输出 到 控制 
台 、 文 件 或 者 网 络 。 可 以 通过 Logger.addHandler0) 来 给 logger 对 象 添 加 
handler， 常 用 的 handler 有 StreamHandler 和 FileHandler 类 。StreamHandler 
发 送 错误 信息 到 流 ， 而 FileHandler 类 用 于 同文 件 输出 日 志 信 息 ， 这 两 个 
handler 定 义 在 logging 的 核心 模块 中 。 其 他 的 handler 定 义 在 
logging.handles 模 块 中 ， 如 HTTPHandler、SocketHandler。 








3) Formatter。 决 定 log 信 息 的 格式 ， 格 式 使 用 类 似 于 %(< dictionary 
key >)s 的 形式 来 定义 ， 如 '%(asctime)s - %(levelname)s - %(message)s'， 
支持 的 key 可 以 在 Python 自 带 的 文档 LogRecord attributes 中 查看 。 


4) Filter。 用 来 决定 哪些 信息 需要 输出 。 可 以 被 handler 和 logger 使 
用 ， 文 持 层次 关系 ， 比 如 ， 如 果 设 置 了 filter 名 称 为 A.B 的 logger， 则 该 
logger 和 其 子 logger 的 信息 会 被 输出 ， 如 A.B、A.B.C. 


logging.basicConfig([**kwargs]) 提 供 对 日 志 系 统 的 基本 配置 ， 默 认 
使 用 StreamHandler 和 Formatter 并 添加 到 root logger， 该 方法 自 Python2.4 
开始 可 以 接受 字典 参数 ， 文 持 的 字典 参数 如 表 4-4 所 示 。 


表 4-4 字典 参数 格式 类 型 


格式 描述 

filename 指定 FileHandler 的 文件 名 ， 而 不 是 默认 的 StreamHandler 
filemode 打开 文件 的 模式 ， 回 open 图 二 同名 参数 ， 默 认为 ”a 
format 输出 格式 字符 串 

dateft 日 期 格式 

level 汉 置 根 Jogger 的 日 志 级 别 

stream 指定 StreamHandler。 这 个 参数 若 与 flen 名 上 stream 





我 们 通过 修改 上 一 节 的 例子 来 看 如 何 结合 traceback 和 1logging， 记 录 
程序 运行 过 程 中 的 异常 。 











import traceback 
import sys 
import logging 
gList = ['a','b','c','d','e','f','g'] 
logging. basicconfig( # 
配置 日 志 的 输出 方式 及 格式 
level= logging. DEBUG, 
filename= a tN 
filemode= 
format= (GE %(filename)s[line:%(lineno)d] %(levelname)s %(message)s'， 


) 
def f(): 
yList[5] 
logging. info('[INFO]:calling method g() in f()')# 
记录 正常 的 信息 
return g() 
def g(): 
logging.info('[INFO]:calling method h() in g()') 


return h() 
def h(): 
logging.info('[INFO]:Delete element in gList in h()') 
del gList[2] 
logging.info('[INFO]:calling method i() in h()') 
return i() 
def i(): 
1ogging.info( LINFOJ: Append element i to gList in i()') 
gList.append('i') 
print gList[7] 





if name, == '__main : 
logging.debug('Information during calling f():') 
try: 
f() 


except IndexError as ex: 
print "Sorry,Exception occured,you accessed an element out of range" 
#traceback.print_exc() 
ty,tv,tb = sys.exc_info() 
logging.error("[ERROR]:Sorry,Exception occured,you accessed an 
element out of range")# 
记录 异常 错误 信息 
logging.critical('object info:%s' %ex 
logging.critical('Error Type:{0},Error Information:{1}'.format(ty, tv)) 


# 
记录 异常 的 类 型 和 对 应 的 值 
logging.critical(''.join(traceback.format_tb(tb)))# 
记录 具体 的 trace 
信息 


sys.exit(1) 











修改 程序 后 在 控制 台 上 对 用 户 仪 显示 错误 提示 信息 “Sorry,Exception 
occured,you accessed an element out of range”， 而 开发 人 员 如 果 需 要 


debug 可 以 在 日 志文 件 中 找到 具体 运行 过 程 中 的 信息 。 








# 

为 了 节省 篇 幅 仅 显 示 部 分 日 志 

2013-06-26 12:05:18,923 traceexample.py[line:41] CRITICAL object info:list 
index out of range 

2013-06-26 12:05:18,923 traceexample.py[line:42] CRITICAL Error Type:<type 
'exceptions.IndexError'>,Error Information:list index out of range 

2013-06-26 12:05:18,924 traceexample.py[line:43] CRITICAL File "traceexample.py", 
line 35, in <module> 


File "traceexample.py", line 15, in f 
return g() 

File "traceexample.py", line 19, in g 
return h() 

File "traceexample.py", line 25, in h 
return i() 

File "traceexample.py", line 30, in i 
print gList[7] 





上 面 的 代码 中 控制 运行 输出 到 console 上 用 的 是 print()， 但 这 种 方法 
比较 原始 ，logging 模 块 提供 了 能 够 同时 控制 输出 到 console 和 文件 的 方 
法 。 下 面 的 例子 中 通过 添加 StreamHandler 并 设置 日 志 级 别 为 
logging.ERROR， 可 以 在 控制 台 上 输出 错误 信息 。 





console = logging.SstreamHandler() 

console.setLevel(logging.ERROR) 

formatter = logging.Formatter('%(name)-12s: %(levelname)-8s %(message)s') 
console.setFormatter(formatter) 

logging.getLogger('').addHandler(console) 





Logping le yi logenB ogling A 
置 ， 支 持 dictConfig 和 feConfig 两 种 形式 ， 其 中 fleConfig 是 基于 
configparserO 函 数 进行 解析 ， 必 须 包 含 的 内 容 为 loggers]、[handlers] 和 
[formatters]。 有 具体 例子 示意 如 下 : 





loggers] 


logger_root] 


amh andler 


王 
<oy 
[mn 





mm er_formgo1] 
format=%(asctime)s %(filenam es [line:%(lineno)d] %(levelname)s %(message)s 
datefmt=%a, %d %b %Y %H:%M:% 





最 后 关于 logging 的 使 用 ， 提 以 下 几 点 建议 : 


1) 尽量 为 logging 取 一 个 名 字 而 不 是 采用 默认 ， 这 样 当 在 不 同 的 模 
块 中 使 用 的 时 候 ， 其 他 模块 只 需要 使 用 以 下 代码 就 可 以 方便 地 使 用 同一 
个 logger， 因 为 它 本 质 上 符合 单 例 模式 。 





import p99 ng 
loggi ng ba icCo nfig(level=1o 990. ng DEBUG) 
logger 10 ogging.getLogger( — ER) 





2) 为 了 方便 地 找 出 问题 所 在 ，logging 的 名 字 建 议 以 模块 或 者 class 
来 合 名 。Logging 名 称 遵 循 按 “.” 划 分 的 继承 规则 ， 根 是 root logger， 
logger ab 的 父 logger 对 象 为 a。 


3) Logging 只 是 线程 安全 的 ， 不 文 持 多 进程 写 入 同一 个 日 子 文件 ， 
因此 对 于 多 个 进程 ， 需 要 配置 不 同 的 日 志文 件 。 








建议 48: 使 用 threading 模 块 编写 多 线程 程序 


GIL 的 存在 使 得 Python 多 线程 编程 暂时 无 法 充分 利用 多 处 理 器 的 优 
势 ， 这 种 限制 也 许 使 很 多 人 感到 泪 背 ， 但 事实 上 这 并 不 意味 着 我 们 需要 
放弃 多 线程 。 的 确 ， 对 于 只 含 纯 Python 的 代码 也 许 使 用 多 线程 并 不 能 提 
高 运行 速率 ， 但 在 以 下 几 种 情况 ， 如 等 竺 外 部 资源 返回 ， 或 者 为 了 提高 
用 户 体验 而 建立 反应 灵活 的 用 户 界 面 ， 或 者 多 用 户 应 用 程序 中 ， 多 线程 
仍然 是 一 个 比较 好 的 解决 方案 。Python 为 多 线程 编程 提供 了 两 个 非常 简 
单 明 了 的 模块 : thread 和 threading。 那 么 ， 这 两 个 模块 在 多 线程 处 理 上 
有 什么 区 别 呢 ? 简单 一 点 说 : thread 模 块 提供 了 多 线程 底层 支持 模块 ， 
以 低级 原始 的 方式 来 处 理 和 控制 线程 ， 使 用 起 来 较为 复杂 ; 而 threading 
模块 基于 thread 进 行 包装 ， 将 线程 的 操作 对 象 化 ， 在 语言 层面 提供 了 丰 
富 的 特性 。Python 多 线程 文 持 用 两 种 方式 来 创建 线程 : 一 种 是 通过 继承 
Thread 类 ， 重 写 它 的 run() 方 法 (注意 ， 不 是 start() 方 法 ) ; 男 一 种 是 创 
建 一 个 threading.Thread 对 象 ， 在 它 的 初始 化 函数 (init_0) 中 将 可 调 
用 对 象 作 为 参数 传 入 。 实 际 应 用 中 ， 推 荐 优先 使 用 threading 模 块 而 不 是 
人 《除非 有 特殊 需要 ) 。 下 面 来 具体 分 析 一 下 这 么 做 的 原 
大 | 。 

















1) threading 模 块 对 同步 原 语 的 支持 更 为 完善 和 丰富 。 就 线程 的 同 
步 和 互 斥 来 说 ，thread 模 块 只 提供 了 一 种 锁 类 型 thread.LockType， 而 
threading 模 块 中 不 仅 有 Lock 指 令 锁 、RLock 可 重 入 指令 锁 ， 还 支持 条 件 
变量 Condition、 信 号 量 Semaphore、BoundedSemaphore 以 及 Event 事 件 
等 


2) threading 模 块 在 主线 程 和 子 线程 交互 上 更 为 友好 ，threading 中 的 
join(0) 方 法 能 够 阻塞 当前 上 下 文 环 境 的 线程 ， 直 到 调用 此 方法 的 线程 终 
止 或 到 达 指 定 的 timeout( 可 选 参 数 ) 。 利 用 该 方法 可 以 方便 地 控制 主线 
程 和 子 线程 以 及 子 线 程 之 间 的 执行 。 来 看 一 个 简单 示例 : 





def run(self): 
print "%s delay for %s" %(self.name, self.delay) 
time.sleep(self.delay) 


c= 
while True: 
print "This is thread %s on line %s" %(self.name,c) 


if c == 3: 
print "End of thread %s" % self.name 
break 
t1 = test('Thread 1', 2) 
t2 = test('Thread 2', 2) 
tisstart{) 
print "Wait t1 to end" 
t1.join() 
t2.8tart{y 
print 'End of main' 





上 面 的 例子 中 ， 主 线程 main 在 tl1 上 使 用 join() 的 方法 ， 主 线程 会 等 待 
纠结 束 后 才 继 续 运 行 后 面 的 语句 ， 由 于 线程 2 的 局 动 在 join 语 句 之 后 ，t2 
一 直 等 到 t1 退 出 后 才 会 开始 运行 。 输 出 结果 如 图 4-6 所 示 。 


hread 1 delav for 2Nait Lh | 


his is thread Thread 1 on line 

his is thread Thread 1 on line 

his is thread Thread 1 on line 
of thread Thread 1 

[hread 2 delay for 2End of main 


his is thread Thread 2 line 
is thread Thread 2 line 
is thread Thread 2 line 

End of thread Thread 2 





图 4-6 多 线程 示例 输出 结 


3) thread 模 块 不 支持 守护 线程 。thread 模 块 中 主线 程 退 出 的 时 候 ， 
所 有 的 子 线程 不 论 是 否 还 在 工作 ， 都 会 被 强制 结束 ， 并 且 没 有 任何 警告 
也 没有 任何 退出 前 的 清理 工作 。 来 看 一 个 例子 : 














from thread ;import start_new_thread 
import time 
def myfunc(ay delay) : 

print "I will calculate Square of %s after delay for %s" %(a,delay) 

time.sleep(delay) 

print "calculate begins..." 

result = a*a 

print result 

return result 
start_new_thread(myfunc, (2,5))# 
同时 启动 两 个 线程 
start_new_thread(myfunc, (6, 8)) 


time.sleep(1) 








运行 程序 ， 输 出 结果 如 下 ， 你 会 发 现 子 线程 的 结果 还 未 返回 就 已 经 
下 





I will calculate Square of 2 after delay for SI will calculate Square of 6 after delya for 2 





这 是 一 种 非常 野蛮 的 主线 程 和 子 线程 的 交互 方式 。 如 果 把 主线 程 和 
子 线程 组 成 的 线程 组 比 作 一 个 团队 的 话 ， 那 么 主线 程 应 该 是 这 个 团队 的 
管理 者 ， 它 了 解 每 个 线程 所 做 的 事情 、 所 需 的 数据 输入 以 及 子 线 程 结束 
时 的 输出 ， 并 把 各 个 线程 的 输出 组 合 形 成 有 意义 的 结果 。 如 果 一 个 团队 
中 管理 者 采取 这 种 强硬 的 管理 方式 ， 相 信 很 多 下 属 都 会 藻 不 堪 言 ， 因 为 
不 仅 没 有 被 尊重 的 感觉 ， 而 且 还 有 可 能 因为 这 种 强势 种 来 决策 上 的 失 
误 。 实 际 上 很 多 情况 下 我 们 可 能 希望 主线 程 能 够 等 待 所 有 子 线程 都 完成 
时 才 退 出 ， 这 时 应 该 使 用 threading 模 块 ， 它 支持 守护 线程 ， 可 以 通过 
setDaemon() 函 数 来 设 定 线 程 的 daemon 属 性 。 当 daemon 属 性 设置 为 True 
的 时 候 表 明 主 线程 的 退出 可 以 不 用 等 待 子 线程 完成 。 默 认 情 况 下 ， 
daemon 标 志 为 False， 所 有 的 非 守 护 线程 结束 后 主线 程 才 会 结束 。 来 看 
具体 的 例子 ， 当 daemon 属 性 设置 为 False， 默 认 主 线程 会 等 待 所 有 子 线 
程 结束 才 会 退出 。 将 也 的 daemon 属 性 改 为 True 之 后 即使 t2 运 行 未 结束 主 
线程 也 会 直接 退出 。 























import threading 
import time 
def myfunc(a, delay): 
print "I will calculate square of %s after delay for %s" %(a,delay) 
time.sleep(delay) 
print "calculate begins..." 
有 


result = 

print result 

return result 
ti=threading.Thread(target=myfunc,args=(2,5)) 


t2=threading.Thread(target=myfunc,args=(6,8)) 
print t1.isDaemon( 


t1i.start() 
t2.start() 





4) Python3 中 已 经 不 存在 thread 模 块 。thread 模 块 在 Python3 中 被 命名 
为 _thread， 这 种 更 改 主要 是 为 了 更 进一步 明确 表示 与 thread 模 块 相关 的 
更 多 的 是 具体 的 实现 细节 ， 它 更 多 展示 的 是 操作 系统 层面 的 原始 操作 和 











处 理 。 在 一 般 的 代码 中 不 应 该 选择 thread 模 块 。 


建议 49: 使 用 Queue 使 多 线程 编程 更 安全 


曾经 有 这 么 一 个 说 法 ， 程 序 中 存在 3 种 类 型 的 bug: 你 的 pug、 我 的 
bug 和 多 线程 。 这 虽然 是 句 调 侦 ， 但 从 某 种 程度 上 道 出 了 一 个 事实 : 多 
线程 编程 不 是 件 容 易 的 事情 。 线 程 间 的 同步 和 互 斥 ， 线 程 间 数 据 的 共享 
等 这 些 都 是 涉及 线程 安全 要 考虑 的 问题 。 纵 然 Python 中 提供 了 众多 的 同 
步 和 互 斥 机 制 ， 如 mutex、condition、event 等 ， 但 同步 和 互 斥 本 身 就 不 
是 一 个 容易 的 话题 ， 稍 有 不 慎 就 会 陷入 死 锁 状态 或 者 威胁 线程 安全 。 我 
们 来 看 一 个 经 典 的 多 线程 同步 问题 : 生产 者 消费 者 模型 。 如 果 用 Python 
来 实现 ， 你 会 怎么 写 ? 大 概 思 路 是 这 样 的 ; 分 别 创建 消费 者 和 生产 者 线 
程 ， 生 产 者 往 队 列 里 面 放 产品 ， 消 费 者 从 队列 里 面 取 出 产品 ， 创 建 一 个 
线程 锁 以 保证 线程 间 操 作 的 互 斥 性 。 当 队列 满 的 时 候 消 费 者 进入 等 待 状 
人 
实现 : 








import Queue 
import threading 
import random 
writelock = threading.Lock() ## 
创建 锁 对 象 用 于 控制 输出 
class Producer(threading.Thread ) : 
def _ init_ (self, q,con,name): 

super(Producer, self). init () 

self.qg = 9q 

self.name = name 

self.con = con 

print "Producer "+self.name+" Started" 
def run(self): 
whi. 

















1 
global writelock 
self.con.acquire() # 
获取 锁 对 象 
if self.q.full(): # 
队列 满 
with writelock : # 
输出 信息 
rint 'Queue is full,producer waitl! 
self.con.wait() # 
else: 
value = random.randint(9,10) 
with writelock: 
print self.name +" put value 
"+self.name+":"+ str(value)+ 
"into queue" 
self.q.put((self.name+":"+str(value))) # 
放 入 队列 中 
self.con.notify() # 
通知 消费 者 
self.con.release() # 
释放 锁 对 象 
class Consumer(threading.Thread): # 
消费 者 


def _ init_ (self, q,con,name): 
super(Consumer, self). init () 
self.qg = 9q 
self.con = con 
self.name = name 
rint "Consumer "+self.name+" started\n " 
def run(self): 
while 1: 
global writelock 
self.con.acquire() 
if self.q.empty(): # 


队列 为 空 
with writelock : 
int 'queue is empty,consumer waitl 
Self.con.wait() ## 
else: 
value = self.q.get() # 
获取 一 个 元 素 
with wri itelock: 
print a nam +"get value 
value fr m queue" 
elf.con.noti ify() 
发 送 消息 通知 生产 者 


释放 锁 对 象 
a name, 





elf.con.release() # 





i 
q= Queu Ue. Gueu e(19) 
con = threading.Condition() # 
条 件 变量 锁 
= Producer(q,con,"P1") 

pstart() 

pi = Producer(q,con,"P2") 

pi.start 

c1 = Consumer(q,con,"c1") 

cl.start() 





上 面 的 程序 实现 有 什么 问题 吗 ? 回答 这 个 问题 之 前 ， 我 们 先 来 了 解 
一 下 Queue 模 块 的 基本 知识 。Python 中 的 Queue 模 块 提 供 了 3 种 队列 : 


Queue.Queue(maxsize): 先进 先 出 ，maxsize 为 队列 大 小 ， 其 值 为 非 
正 数 的 时 候 为 无 限 循环 队列 。 


.Queue.LifoQueue(maxsize): 后 进 先 出 ， 相 当 于 栈 。 

Queue.PriorityQueue(maxsize): 优先 级 队列 。 

:这 3 种 队列 文 持 以 下 方法 : 

.Queue.qsize0: 返回 近似 的 队列 大 小 。 注 意 ， 这 里 之 所 以 加 “ 近 
似 ” 二 字 ， 是 因为 当 该 值 >0 的 时 候 并 不 保证 并 发 执行 的 时 候 get() 方 法 不 
被 阻塞 ， 同 样 ， 对 于 put(O 方 法 有 效 。 

Queue.empty(): 列队 为 空 的 时 候 返 回 True， 人 否则 返回 False。 


.Queue. a 当 设 定 了 队列 大 小 的 情况 下 ， 如 果 队 列 满 则 返回 
True， 人 否则 返回 False。 


.Queue.put(item[，block[，timeout]): 往 队 列 中 添加 元 素 item，block 
设置 为 False 的 时 候 ， 如 果 队 列 满 则 抛 出 Full 异 常 。 如 果 block 设 置 为 
True, a nnn 0 否则 会 根据 
timeout 的 设 定 超时 后 抛 出 Full 异 


Queue.put_nowait(item): 等 价 于 put(item，False).block 设 置 为 False 的 








时 候 ， 如 果 队 列 空 则 抛 出 Empty 有 异 稼 。 如 果 block 设 置 为 True、timeonut 为 
None 的 时 候 则 会 一 直 等 待 直到 有 元 素 可 用 ， 否 则 会 根据 timeout 的 设 定 
超时 后 抛 出 Empty 异常 。 


-Queue.get([block[， timeout]]): 从 队列 中 删除 元 素 并 返回 该 元 素 的 
值 。 


“Queue.get_nowait(): 等 价 于 get(False)。 


-Queue.task_done(): 发 送信 号 表明 入 列 任务 已 经 完成 ， 经 常 在 消费 
者 线程 中 用 到 。 


Queue.join(): 阻塞 直至 队列 中 所 有 的 元 素 处 理 完毕 。 


Queue 模 块 实现 了 多 个 生产 者 多 个 消费 者 的 队列 ， 当 多 线程 之 间 需 
要 信息 安全 的 交换 的 时 候 特 别 有 用 ， 因 此 这 个 模块 实现 了 所 需要 的 锁 原 
语 ， 为 Python 多 线程 编程 提供 了 有 力 的 文 持 ， 它 是 线程 安全 的 。 需 要 注 
意 的 是 Queue 模 块 中 的 列队 和 collections.deque 所 表示 的 队列 并 不 一 样 ， 
前 者 主要 用 于 不 同 线程 之 间 的 通信 ， 它 内 部 实现 了 线程 的 锁 机 制 ; 而 后 
者 主要 是 数据 结构 上 的 概念 ， 因 此 支持 in 方 法 。 


再 回 过 头 来 看 看 前 面 的 例子 ， 程 序 的 实现 有 什么 问题 呢 ? 答案 很 明 
显 ， 作 用 于 queue 操 作 的 条 件 变量 完全 是 不 需要 的 ， 因 为 queue 本 身 能 够 
保证 线程 安全 ， 因 此 不 需要 额外 的 同步 机 制 。 那 么 ， 该 如 何 修改 呢 ? 请 
读者 自行 思考 。 下 面 的 多 线程 下 载 的 例 了 也 许 有 助 于 你 完成 上 面 程序 的 
诬 改 。 


























hread(threading.Thread ) : 
不 名 : 


ead. init_ (self) 
eue 


e: 
= self.queue.get() # 





print self.name+"begin download"+url+"..." 
self.download_file(url) # 


进行 文件 下 载 
self .queue.task_done() # 
下 载 完毕 发 送信 号 
int self.name+" download completed!!!" 
def download file(self, url): # 
下 载 文件 





urlhandler = urllib2.urlopen(url1) 
= os.path.basename(url1)+".html" # 
文件 名 称 


with open(fname, "wb") as f: # 
打开 文件 
while True: 
chunk = urlhandler.read(1024) 
if not chunk: break 
f.write(chunk) 
下 下 name, == "_ main __": 
urls = ["http://wiki.python.org/moin/WebProgramming", 
"https://www.createspace.com/3611970", 
"http://wiki.python.org/moin/Documentation" 





] 
queue = Queue.Queue() 
# create a thread pool and give them a queue 
for i in range(5): 


t = DownloadThread(queue) # 
启动 5 
个 线程 同时 进行 下 载 

t.setDaemon(True) 

t.start() 


# give the queue some data 

for url in urls: 
queue.put(url) 

# wait for the queue to finish 

queue.join() 


二 一 


第 5 章 ”设计 模式 


设计 模式 由 来 已 信 ， 并 广泛 存在 于 各 行 各 业 中 ， 不 过 软件 开发 行业 
的 设计 模式 广为人知 ， 这 还 是 GoF 的 《设计 模式 一 一 可 复 用 面 问 对象 软 
件 的 基础 》 一 书 之 功 ， 而 后 来 的 《Head First 设 计 模式 》 则 通过 幽默 有 趣 
的 文风 使 其 广泛 流行 于 程序 员 之 间 。 这 两 本 书 堪 称 经 典 ， 但 是 它们 分 别 
使 用 C++ 和 Java 编 程 语言 作为 载体 ， 如 果 照 搬 到 Python 程序 中 ， 代 码 里 
散发 出 的 浓 浓 的 静态 语言 风格 让 人 无 所 适 从 。 笔 者 坚信 在 使 用 Python 语 
言 进行 编程 时 得 当地 应 用 设计 模式 是 有 区 的 ， 而 且 Python 的 动态 语言 特 
性 并 不 能 完全 痊 代 设计 模式 。 所 以 本 章 的 内 容 主 要 聚 焦 于 如 何 编写 
Pythonic 的 设计 模式 代码 ， 让 设计 模式 这 一 高 层 思想 更 好 地 落实 到 我 们 
的 编程 实践 中 去 。 























建议 50: 利用 模块 实现 单 例 模 式 


在 GOF 的 23 种 设计 模 陈 中 ， 单 例 是 最 向 使 用 的 模式 ， 通 过 单 例 模 陈 
可 以 保证 系统 中 一 个 类 只 有 一 个 实例 而 且 该 实例 易于 被 外 界 访问 ， 从 而 
方便 对 实例 个 数 的 控制 并 节约 系统 资源 。 每 当 大 家 想 要 实现 一 个 名 为 
XxxManger 的 类 时 ， 往 往 意味 着 这 是 一 个 单 例 。 在 游戏 编程 中 尤 是 如 
此 ， 比 如 一 个 名 为 World 的 单 例 管理 着 游戏 中 的 所 有 资源 ， 包 括 一 个 名 
为 Sun 的 单 例 ， 它 给 这 个 世界 市 来 了 光 腕 。 


单 例如 此 和 常见， 所 以 有 不 少 现代 编程 语言 将 其 加 到 了 语言 特性 中 ， 
如 scala 和 falcon 语 言 都 把 object 定 义 成 关键 词 ， 并 用 其 声明 单 例 。 如 在 
scala 中 ， 一 个 单 例 如 下 : 

















object 定 义 了 一 个 名 为 Singleton 的 单 例 ， 它 满足 单 例 的 3 个 需求 : 一 
是 只 能 有 一 个 实例 ;二 是 它 必须 自行 创建 这 个 实例 ， 三 是 它 必须 自行 向 
整个 系统 提供 这 个 实例 。 对 于 第 三 点 ， 在 任何 地 方 都 可 以 通过 调用 
Singleton.show() 来 验证 。 在 scala 中 ， 单 例 没有 显 式 的 初始 化 操作 ， 但 并 
0 














nction metho 
[method_body] 

end 

function method_N( [parameter_list] ) 

[method_body] 

end 


end 





上 面 是 falcon 语 言 的 单 例 语法 ，[init block] 能 够 让 程序 员 手 动 控 制 单 
例 的 初始 化 代码 。 但 是 与 scala 和 falcon 相 比 ， 动 态 语言 Python 就 没有 那 
么 方便 了 ， 主 要 原因 是 Python 缺乏 声明 私有 构造 函数 的 语法 元 素 ， 实 例 


又 带 有 类 型 信息 。 比 如 以 下 方法 是 不 可 行 的 : 





class _Singleton(object): 


pass 
Singleton = _Singleton() 

del _Singleton # 
试图 删除 class 

定义 
another = Singleton._ class_ () # 
; gj 过 1 

















没 用 ， 台 

print(type(another)) 

# 

输 

<class '_ main ._Singleton'> 





可 见 虽 然 把 Singleton 的 类 定义 删除 了 ， 但 仍然 有 办 法 通过 已 有 实例 
的 _class 属性 生成 一 个 新 的 实例 。 于 是 许多 Pythonista 把 目光 聚集 到 真 
正 创建 实例 的 方法 _new 上 ， 并 做 起 了 文章 。 





class Singleton(object ) : 
_instance = None 
def _new_ (cls，*args，**kwargs) : 
if not cls._instance: 
cls._instance = super(Singleton, cls)._ new_( 
cls, *args, **kwargs) 
return cls._instance 
if name, = i 沪 
si=Singleton() 
s2=Singleton() 
assert id(s1)==id(s2) 











这 个 方法 很 好 地 解决 了 前 面 的 问题 ， 现 在 基本 上 可 以 保证 “只 能 
一 个 实例 ?的 要 求 了 ， 但 是 在 并 发 情况 下 可 能 会 发 生意 。 为 了 解决 这 个 
问题 ， 引 入 一 个 带 锁 的 版 本 。 





class Singleton(object): 


s = 
objs_locker = threading.Lock() 
def _new_ (cls, *args, **kvVv): 
SET SS 
return cls.objs[cls] 
cls.objs_locker.acquire() 


rs 
if cls in cls.objs: ## double check locking 
return cls.objs[cls 
cls.objs[cls] = object. new_ (cls) 
finally: 
cls.objs_locker.release() 





利用 经 典 的 双 检 查 锁 机 制 ， 确 保 了 在 并 发 环境 下 Singleton 的 正确 实 
现 。 但 这 个 方案 并 不 完美 ， 至 少 还 有 以 下 两 个 问题 : 








.如 果 Singleton 的 子 类 重 载 了 _new_() 方 法 ， 会 覆盖 或 者 干扰 
Singleton 类 中 new 一 0 的 执行， 虽然 这 种 情况 出 现 的 概率 极 小 ， 但 不 可 
忽视 。 


:如 果子 类 有 __init_ 0) 方法， 那么 每 次 实例 化 该 Singleton 的 时 候 ， 
_ init _() 都 会 被 调用 到 ， 这 显然 是 不 应 该 的 ，_ init_0O 只 应 该 在 创建 实 
例 的 时 候 被 调用 一 次 。 


这 两 个 问题 当然 可 以 解决 ， 比 如 通过 文档 告知 其 他 程序 员 ， 子 类 化 
Singleton 的 时 候 ， 请 务必 记得 调用 父 类 的 _new_0 〇 方法; 而 第 二 个 问题 
也 可 以 通过 偷偷 地 蔡 换 挥 _init 0 方法 来 确保 它 只 调用 一 次 。 但 是 ， 为 
了 实现 一 个 单 例 ， 做 大 量 的 、 水 面 之 下 的 工作 让 人 感 党 相当 不 
Pythonic。 这 也 引起 了 Python 社区 的 反思 ， 有 人 开始 重新 审视 Python 的 
语法 元 素 ， 发 现 模块 采用 的 其 实 是 天 然 的 单 例 的 实现 方式 。 


:所 有 的 变量 都 会 绑 定 到 模块 。 
-模块 只 初始 化 一 次 。 
-import 机 制 是 线程 安全 的 “保证 了 在 并 发 状态 下 模块 也 只 有 一 个 实 











例 ) 
当 我 们 想 要 实现 一 个 游戏 世界 时 ， 只 需 简单 地 创建 World.py 就 可 以 








然后 在 入 口 文件 main.py 里 导入 ， 并 调用 run0 函 数 ， 看 ， 是 不 是 感 
觉 这 种 方式 最 为 Pythonic 呢 ? 














Alex Martelli 认 为 单 例 模 式 要 求 “ 实 例 的 唯一 性 ?本 喘 是 有 问题 
的 ， 实 际 更 值得 关注 的 是 实例 的 状态 ， 只 要 所 有 的 实例 共享 状态 
(可 以 狭义 地 理解 为 属性 ) 、 行 为 〈 可 以 狭义 地 理解 为 方法 ) 一 致 
就 可 以 了 。 在 这 一 思想 的 进一步 指导 下 ， 他 提出 了 Borg 模 式 ( 在 C# 
中 又 称 为 Monostate 模 式 ) 。 











通过 Borg 模 式 ， 可 以 创建 任意 数量 的 实例 ， 但 因为 它们 共享 状 
态 ， 从 而 保证 了 行为 一 致 。 虽 然 Alex 的 这 个 Borg 模 式 仅 适 用 于 古典 
类 (classic ”clasess) ，Python ”2.2 版 本 以 后 的 新 式 类 (new-style 
classes) 需要 使 用 getattr 和 setattr_ 方 法 来 实现 〔( 代 码 略 》， 
但 其 可 开阔 眼界 。 





建议 51: 用 mixin 模 式 让 程序 更 加 灵活 


在 理解 mixin 之 前 ， 有 必要 先 重 温 一 下 模板 方法 模式 。 所 谓 的 模板 
方法 模式 束 是 在 一 个 方法 中 定义 一 个 算法 的 骨架 ， 并 将 一 些 实现 步骤 延 
迟到 子 类 中 。 模 板 方 法 可 以 使 子 类 在 不 改变 算法 结构 的 情况 下 ， 重 新 定 
义 算法 中 的 东 些 步骤 。 在 这 里 ， 算 法 也 可 以 理解 为 行为 。 


模板 方法 模式 在 C++ 或 其 他 语言 中 并 无 不 慨 ， 但 是 在 Python 语言 
中 ， 则 颇 有 点 画蛇添足 的 味道 。 比 如 模板 方法 ， 需 要 先 定 义 一 个 基 类 ， 
而 实现 行为 的 茶 坚 步骤 则 必须 在 其 子 类 中 ， 在 Python 中 并 无 必要 。 














self): 
self.get_teapot() 
in_tea() 
_in_water() 
0 





在 这 个 例子 中 ，get_teapot() 方 法 并 不 需要 预先 定义 。 假 设 在 上 班 
时 ， 使 用 的 是 简易 茶 这 而 在 家 里 ， 使 用 的 是 功 天 茶 过， 那么 可 以 这 样 
编写 代码 ; 








class OfficePeople(People): 
def get_ teapot(self): 
return SimpleTeapot() 
class HomePeople(People): 
def get_ teapot(self): 
return KungfuTeapot() 





这 段 代 码 工 作 得 很 好 ， 虽 然 看 起 来 像 模 板 方法 ， 但 是 基 类 并 不 需要 
预先 声明 抽象 方法 ， 甚 至 还 带 来 调试 代码 的 便利 。 假 定 存 在 一 个 People 
的 子 类 StreetPeople， 用 以 描述 * 正 走 在 街 上 的 人 ”， 作 为 “没有 人 会 随 映 
携带 茶 壹 ”的 第 识 的 反映 ， 这 个 类 将 不 会 实现 get_teapot(0) 方 法 ， 所 以 一 
调用 make_tea0) 就 会 产生 一 个 找 不 到 get_teapot0) 方 法 的 AttributeError。 由 
此 程序 员 瑟 上 会 想到 “ 正 走 在 街 上 的 人 ” 边 走 边 泡 茶 这 样 的 需求 是 不 合理 
和 从 而 能 够 在 更 高 层次 上 考虑 业务 的 合理 性 ， 在 更 接近 本 源 的 地 方 修 

昔 误 。 


但 是 ， 这 段 代码 并 不 完美 。 老 板 (OfficePeople 的 一 个 实例 ) 拥有 








巨大 的 办 公 室 ， 他 购置 了 功夫 茶具 ， 他 要 在 办 公 室 唱功 夫 茶 了 。 怎 么 
办 ? 答案 有 两 种 ， 一 种 是 从 OfficePeople 继 承 子 类 Boss， 重 写 它 的 
get_teapot()， 使 它 返 回 功夫 茶具 ; 男 一 个 则 是 把 get_teapot0 方 法 提取 出 
来 ， 把 它 以 多 继承 的 方式 做 一 次 静态 混入 。 





class U impleTeapot (object): 
de get -teapo t(self): 


class U tt pot(object): 
def get_ Stepo LC® elf 
ungfuTeapot () 


class Offic 9。 UseSimpleTeapot): pa 
class Hom Epes opie (People, UseKungfuTeap Pos) pa 
class Boss(People ungfuTeapot ) :p 





这 样 束 很 好 地 解决 了 老板 在 办 公 室 也 要 喝 功 夫 茶 的 需求 。 但 是 这 样 
的 代码 仍然 没有 把 Python 的 动态 性 表现 出 来 : 当 新 的 需求 出 现时 ， 需 要 
更 改 类 定义 。 比 如 随 着 公司 扩张 ， 越 来 越 多 的 人 入 职 ，OffiecPeople 的 
需求 越 来 越 多 ， 开 始 出 现 有 人 不 喝 从 而 是 喝 咖 啡 ， 也 有 人 既 喜 欢 喝 茶 还 
喜欢 喝 咖 啡 ， 出 现 了 豆 欢 在 独立 办 公 室 抽 雪 茄 的 职业 经 理 人 .…… 这 些 关 
和 代码 越发 难以 维护 。 让 我 们 开始 寄 望 于 动态 地 生成 不 同 的 实 
列 。 














def simple_ tea people(): 
people = People() 
people. bases += (UseSimpleTeapot,) 


people.__bases += (UseCoffeepot,) 


def tea . er d_coffee ie 
eople = Pe 1e()， 
Pep ha = (UseSimpleTeapot, UseCoffeepot,) 
n peo pls 
people = People() 
people. bases += (KungfuTeapot, UseCoffeepot,) 
return people 








这 个 代码 能 够 运行 的 原理 是 ， 每 个 类 都 有 一 个 _bases 属性 ， 它 是 
一 个 元 组 ， 用 来 存放 所 有 的 基 类 。 与 其 他 静态 语言 不 同 ，Python 语 言 中 
0 可 以 动态 改变 。 所 以 当 我 们 回 其 中 增加 新 的 基 类 时 ， 这 

类 就 拥有 了 新 的 方法 ， 也 融 是 所 谓 的 混入 Cmixin) 。 这 种 动态 性 的 

.oe 闫 得 了 更 丰富 的 扩展 功能 。 想 象 一 下 ， 你 之 前 写 好 的 代码 
并 不 需要 个 性 ， 只 要 后 期 为 它 增 加 基 类 ， 束 能 够 增强 功能 (或 蔡 换 原 有 
行为 ) ， 这 多 么 方便 ! 值得 进一步 探索 的 是 ， 利 用 反射 技术 ， 甚 至 不 需 
要 修改 代码 。 假 定 我 们 在 OA 系统 里 定义 员工 的 时 候 ， 有 一 个 特性 选择 














页 面 ， SS 比如 对 于 Boss， 可 以 勾 选 功夫 杂 
和 咖啡 ， 那 么 通过 的 代码 可 能 如 下 : 





ases = 








看 ， 通 过 这 个 框架 代码 ，OA 系 统 的 开发 人 员 只 需要 把 员工 常见 的 
需求 定义 成 Mixin 预 告 放 在 mixins 模 块 中 ， 束 可 以 在 不 修改 代码 的 情况 下 
通过 管理 界面 满足 几乎 所 有 需求 了 。Python 的 动态 性 优势 也 在 这 个 例子 
中 得 到 了 很 好 的 展现 。 





建议 52: 用 发布 订阅 模 陈 实现 松 烛 合 


发 布 订 阅 模式 〈publish/subscribe 或 pub/sub ) 是 一 种 编程 模式 ， 消 县 
的 发 送 者 (发 布 者 ) 不 会 发 送 其 消息 给 特定 的 接收 者 (订阅 者 ) ， 而 是 
将 及 布 的 消息 分 为 不 同 的 类 别 直 接 发 布 ， 并 个 关注 订阅 者 是 谁 。 而 订阅 
者 可 以 对 一 个 或 多 个 类 别 感 兴趣 ， 且 只 接收 感 兴趣 的 消 和 上， 并且 不 关注 
是 哪个 发 布 者 发 布 的 消息 。 这 种 发 布 者 和 订阅 才 的 解 碍 可 以 允许 更 好 的 
可 扩 放 性 和 更 为 动态 的 网 络 拓扑 ， 故 受到 了 大 家 的 喜爱 。 


发 布 订阅 模式 的 优点 是 发 布 者 与 订阅 者 松散 的 灰 合 ， 双 方 不 需要 知 
道 对 方 的 存在 。 由 于 主题 是 被 关注 的 ， 发 布 者 和 订阅 者 可 以 对 系统 拓扑 
坚 无 所 知 。 无 论 对 方 是 人 否 存 在 ， 发 送 者 和 订阅 者 都 可 以 继续 正 浓 操作 。 
要 实现 这 个 模式 ， 就 需要 有 一 个 中 间 代 理 人 ， 在 实现 中 一 般 被 称 为 
Broker， 它 维护 着 发 布 者 和 订阅 者 的 关系: 订阅 者 把 感 兴趣 的 主题 告诉 
它 ， 而 发 布 者 的 信息 也 通过 它 路 由 到 各 个 订阅 者 处 。 简 单 的 实现 如 下 : 











Et m Se import defaultdict 
ute_table = de efa ultdict(1ist) 
de f su hfse elf， to Spc Ca hae ck): 
callb ute_table[topic] 
return 
te_table SE 汪 c]. appe nd(ca allback) 
def pu bse el top 
r func ut _tal 2 efto pic]: 
func(*a, *kw) 











这 个 实现 非常 简单 ， 直 接 放 在 一 个 叫 Broker.py 的 模块 中 (这 显然 是 
单 件 ) ， 省 去 了 各 种 参数 检测 、 优 先 处 理 的 需求 等 ， 甚 至 没有 取消 订阅 
J ee 吉 构 ， 它 的 应 用 
尺码 也 可 以 运 











相对 于 这 个 简化 版 本 ，blinker 和 python-message 两 个 模块 的 实现 要 
完备 得 多 。blinker 已 经 被 用 在 了 多 个 广 受 欢迎 的 项 目 上 ， 比 如 flask 和 





django; 而 python-message 则 文 持 更 多 丰富 的 特性 。 本 节 以 python- 
message 的 使 用 为 例 ， 讲 解 发 布 订阅 模式 的 应 用 场景 。 


安装 python-message 相 当 人 简单 ， 通 过 pip 安 装 就 可 以 了 。 





pip install message 





然后 简单 验证 一 下 。 








运行 输出 如 下 : 





hello, lai. 





接 下 来 用 它 解 决 一 些 实际 问题 。 假 定 你 给 项 目 组 开发 了 一 个 程序 库 
foo， 里 面 有 一 个 非常 重要 的 函数 bar。 








def bar(): 
rint 
-St 


Qo 
口 


'Haha, Calling bar().' 
h() 





这 个 函数 如 此 重要 ， 所 以 你 给 它 加 上 了 一 行 输出 代码 ， 用 以 输出 日 
志 。 后 来 你 的 这 个 程序 库 foo 被 大 量 使 用 了 ， 一 直 运 行 得 很 好 ， 直 到 又 
一 个 新 项 目 拖 你 过 去 “救火 ”， 因 为 出 了 bug 无 法 查 出 原因 ， 怀 疑 是 foo 的 
问题 。 你 查看 了 很 久 日 志 ， 都 没有 发 现 他 们 调用 bar0 的 痕迹 ， 一 问 ， 原 
来 他 们 是 用 logging 的 ， 标 准 输出 在 做 Daemon 的 时 候 被 重 定 问 到 
了 /dev/null。 在 临时 修改 了 输出 重 定 问 以 后 ， 找 到 了 bug 所 在 ， 并 解决 
了 。 然 后 你 开始 着 手 解决 这 个 问题 。 一 开始 你 想 在 你 的 foo 库 中 引入 
logging， 但 原来 的 项 目 又 不 用 logging， 你 在 程序 库 里 引入 logging， 但 谁 














来 初始 化 它 呢 ? 就 算 你 引入 了 logging， 则 你 们 的 项 目 可 能 是 用 
logging.getLogger('prjA') 获 取 logger， 男 一 个 项 目 可 能 是 用 
logging.getLogger(prjB)， 日 后 还 有 新 项 目 呢 ! 一 想到 要 兼容 这 么 多 项 
目 你 就 涉 大 了 。 妨 痛 钊 爱 ， 把 print 语 句 给 删除 擅 吧 ， 又 怕 日 后 出 了 问题 
目 己 都 找 不 到 bug， 那 还 不 是 自己 加 班 自 己 苗 。 这 个 时 候 ， 不 妨 让 
python-message 来 玫 你 ， 轻 松 改 一 下 bar() 函 数 。 








import message 

LOG_MSG = ('l0og', 'foo') 

def bar(): 
message.pub(LOG_ MSG, 'Haha, Calling bar().') 
do_sth() 





在 已 有 的 项 目 中 ， 只 需要 在 项 目 开始 处 加 上 这 样 的 代码 ， 继 续 把 日 
志 放 到 标准 输出 。 





le_foo_log msg(txt): 
t 


七 
Sub(foo.L0OG_MSG，handle_foo_1og_msg) 





而 在 那个 使 用 logging 的 新 项 目 中 ， 则 这 样 修改 : 





def handle foo_log msg(txt): 


1 
logging.debug(txt) 








甚至 在 一 些 不 关注 底层 库 的 日 志 项 目 中 ， 直 接 无 视 就 可 以 了 。 遂 过 
message， 可 以 轻松 获得 库 与 应 用 之 间 的 解 看， 因为 库 关 注 的 是 要 有 日 
志 ， 而 不 关注 日 志和 输出 到 哪里 ， 应 用 关注 的 是 日 志 要 统一 放置 ， 但 不 天 
注 谁 入 日 志文 件 中 输出 内 容 ， 这 正 与 发 布 订阅 模式 的 应 用 场景 不 谋 而 


Do 





除了 简单 的 subO/pub0 之 外 ，python-message 还 支持 取消 订阅 
(unsub()) 和 中 止 消息 传递 。 





limpo 
def helo oa hj: 


essage.pub('greet'，'1lai') 





python-message 利 用 回调 函数 的 返回 值 来 实现 取消 消息 传递 ， 非 浓 
巧妙 〈 读 者 可 以 思考 一 下 为 什么 能 够 利用 回调 函数 的 返回 值 ) 。 在 上 面 
这 个 例子 中 ， 运 行 后 是 看 不 到 “au can't c me.” 这 一 行 输出 的 ， 因 为 消息 在 
， yat 百 就 中 止 传递 了 (Broker 使 用 ]list 对 象 存储 回调 函数 就 是 为 了 

证 次 


python-message 是 同步 调用 回调 函数 的 ， 也 就 是 说 谁 先 sub 谁 就 完 被 
调用 。 大 部 分 情况 下 这 样 已 经 能 够 满足 大 分 需求 ， 但 有 时 需要 后 sub 的 
函数 先 被 调用 ， 这 时 message.sub 函 数 通 过 一 个 默认 参数 来 文 持 的 ， 只 需 

要 简单 地 在 调用 sub 的 时 候 加 上 front=True， 这 个 回调 函数 将 被 插 到 所 有 
之 前 己 经 sub 的 回调 函数 之 前 : sub('greet',hello,front=True)。 


订阅 /发 布 模式 是 观察 者 模式 的 超 集 ， 它 不 关注 消 明 是 谁 发 布 的 ， 
也 不 关注 消息 由 谁 处 理 。 但 有 时 候 我 们 也 和 希望 某 个 自己 的 类 的 也 能 够 更 
方便 地 订阅 /发 布 消 妃 ， 也 了 驶 是 想 退 化 为 观察 者 模式 ，python-message 同 
样 提供 了 支持 。 如 以 下 代码 : 























fro observable 
def gre et(pe ople] 
ot 'hello, %s.'%people.nam 
@obse 
class Foo oo ooje cr 
it 证 吕 Sn name): 
nt 


Ss 四 
foo = Foo('lai') 
foo .pu Bb eet() 





python-message 提 供 了 类 装饰 函数 observable0， 任 何 class 只 需要 通 
过 它 装饰 一 下 就 拥有 了 sub/unsub/pub/declare/retract 等 方法 ， 它 们 的 使 用 
方法 跟 全 局 函数 是 类 似 的 ， 在 此 不 袭 述 。 


Ons 


因为 python-message 的 消息 订阅 默认 是 全 局 性 的 ， 所 以 有 可 能 
产生 名 字 冲 突 。 在 减少 名 字 冲 突 方面 ， 可 以 借鉴 java/actionscript3 的 
package 起 名 策略 ， 比 如 在 应 用 中 定义 消息 主题 常量 
FOO='com.googlecode.python-message.FOO'， 这 样 多 个 库 同 时 定义 
FOO 和 常量 也 不 容易 冲突 。 除 此 之 外 ， 还 有 一 招 束 是 使 用 uuid， 如 
下 : 








uuid = 'bd61825688d72b345ce07057b2555719 ' 
F00 = uuid + 'FOO' 





建议 53: 用 状态 模式 美化 代码 


所 谓 状 态 模式 ， 就 是 当 一 个 对 象 的 内 在 状态 改变 时 允许 改变 其 行 
为 ， 但 这 个 对 象 看 起 来 像 是 改变 了 其 类 。 状 态 模 式 主要 用 于 控制 一 个 对 
象 状态 的 条 件 表达 式 过 于 复杂 的 情况 ， 其 可 把 状态 的 判断 馆 辑 转移 到 表 
示 不 同 状 态 的 一 系列 类 中 ， 进 而 把 复杂 的 判断 馆 辑 简化 。 


得 益 于 Python 语言 的 动态 性 ， 状 态 模式 的 Python 实现 与 C++ 等 语言 
en 举 个 例子 ， 一 个 人 ， 工 作 日 和 周 日 的 日 常生 活 
是 不 同 的。 














def workday(): 


peo e.day = workday 
people opty 





运行 上 述 代 码 ， 输 出 如 下 : 





3 
< 入 和 和 大 天 
a a a a 
本 
Cooooon 
We 
3 


”和 
人 








就 这 样 ， 通 过 在 不 同 的 条 件 下 将 实例 的 方法 《〈 即 行为) 苦 换 反 ， 驶 
交 现 了 状态 模式 ， 但 是 这 个 简单 的 例子 仍然 有 以 下 缺陷 : 


` 碍 询 对 象 的 当前 状态 很 麻烦 。 
状态 切换 时 需要 对 原状 态 做 一 些 清 扫 工 作 ， 而 对 新 的 状态 需要 做 


一 些 初始 化 工作 ， 因 为 每 个 状态 需要 做 的 事情 不 同 ， 全 部 写 在 切换 状态 
的 代码 中 必然 重复 ， 所 以 需要 一 个 机 制 来 简化 。 


python-state 包 通过 儿 个 辅助 函数 和 修饰 函数 很 好 地 解决 了 这 个 问 
题 ， 并 且 定 义 了 一 个 简明 状态 机 框架 。 先 用 pip 安 装 它 。 





pip install state 





然后 用 它 改 写 之 前 的 例子 。 





from state import curr, switch, stateful,State, behavior 
@stateful 
class People(object): 
class Workday(State): 
default = True 
@behavior 
def day(self): 
print 'work hard.' 
class Weekend(State): 
ehavior 
def day(self): 
print 'play harder!' 
people = People() 
hE rue: 
r i in xrange(1, 8): 
if i == 6: 
Switch(people，People.Weekend ) 
switch(people, People.workday) 
people.day() 








怎么 样 ? 是 不 是 感觉 好 像 比 应 用 模式 之 前 的 代码 还 要 长 ? 这 是 因为 
例子 太 简 单 了 ， 后 面 再 给 大 家 展示 更 贴近 真实 业务 需求 的 例子 。 现 在 我 
们 先 按 下 这 个 不 表 ， 单 看 最 后 一 行 的 people.day()。people 是 People 的 一 
个 实例 ， 但 是 People 并 没有 定义 day0 方 法 啊 ? 为 了 解决 这 个 疑惑 ， 需 要 
我 们 从 头 看 起 。 


首先 是 @stateful 这 个 修饰 函数 ， 它 包含 了 许多 “ 黑 魔 法 "”， 其 中 最 重 
要 的 是 重 载 了 被 修饰 类 的 __getattr_() 方 法 从 而 使 得 People 的 实例 能 够 调 
用 当前 状态 类 的 方法 。 被 @stateful 修 饰 后 的 类 的 实例 是 带 有 状态 的 ， 能 
够 使 用 curr0 碍 询 当 前 状态 ， 也 可 以 使 用 switch0 进 行 状态 切换 。 接 下 来 
继续 往 下 看 ， 可 以 看 到 类 Workday 继 续 自 State 类 ， 这 个 State 类 也 是 来 自 
于 state 包 ， 从 其 派生 的 子 类 能 够 使 用 _begin 和 ”end_ 状态 转换 协 
议 ， 通 过 重 载 这 两 个 协议 ， 子 类 能 够 自 定义 进入 和 离开 当前 状态 时 对 答 
主 ( 在 本 例 中 即 people〉 的 初始 化 和 清理 工作 。 对 于 一 个 @stateful 类 而 
言 ， 有 一 个 默认 的 状态 〈 即 其 实例 初始 化 后 的 第 一 个 状态 ) ， 通 过 类 定 
义 的 default 属 性 标识 ，default 设 置 为 True 的 类 成 为 默认 状态 。@behavior 
修饰 函数 用 以 修饰 状态 类 的 方法 ， 其 实 它 是 内 置 函数 staticmethod 的 别 

















名 。 为 什么 要 将 状态 类 的 方法 实现 为 静态 方法 呢 ? 因为 state 包 的 原则 是 
状态 类 只 有 行为 ， 没 有 状态 〈 状 态 都 保存 在 宿主 上 ) ， 这 样 可 以 更 好 地 
实现 代码 重用 。 那 么 day0) 方 法 既然 是 静态 的 ， 为 什么 有 self 参 数 ? 这 其 
实 是 因为 self 并 不 是 Python 的 关键 字 ， 在 这 里 使 用 self 有 助 于 理解 状态 类 
的 宿主 是 People 的 实例 。 


至 此 ， 读 者 对 state 这 个 简单 的 包 就 基本 上 了 解 清 楚 了 。 下 面 讲 一 个 
来 自 真 实业 务 的 例子 ， 看 它 如 何 美 化 原 有 的 代码 。 在 网 络 编程 中 ， 通 常 
有 一 个 User 类 ， 每 一 个 在 线 用 户 都 有 一 个 User 的 实例 与 之 对 应 。User 有 
一 些 方法 ， 需 要 确保 用 户 登 录 之 后 才能 调用 ， 比 如 查看 用 户 信息 。 这 些 
方法 大 概 像 这 样 : 

















真实 项 目 中 ， 类 似 do_sth() 的 业务 代码 数量 不 少 ， 如 果 每 个 函数 前 
两 行 都 是 if...raise...， 以 确保 调用 场景 正确 ， 那 么 可 以 想象 得 出 来 代码 
该 有 多 么 难看 (代码 一 重复 就 不 好 看 了 )〉 。 这 时 候 程 序 员 会 选择 使 用 
decorator 来 修饰 这 些 业 务 代码 。 











Qensure _signin 
def do_sth(self, *a, **kw): 








上 述 代 码 看 上 去 很 完美 的 解决 方案 ， 而 且 @ensure_signin 相 当 
Pythonic。 但 是 想象 一 下 ， 某 些 地 方 ， 你 除了 要 确定 登录 之 外 ， 还 需要 
确定 是 否 在 战斗 副本 中 ， 角 色 是 否 已 经 死亡 .……. 等 等 。 想 象 一 下 ， 十 个 
八 个 方法 ， 每 个 方法 上 面 都 项 着 四 五 个 修饰 函数 ， 该 有 多 么 丑陋 ! 这 就 
是 状态 模式 可 以 美化 的 地 方 。 





tate tu 
ass User(object): 
六 | ee NeedSi igni 由 ate) : 
defa a 
@behav. 
def si on in(se elf, usr, pwd): 


switch(self, Player.Signin) 
class Signin(State): 


def move(self, dst): ... 


ehavior 
def atk(self, other): ... 





可 以 看 到 ， 当 用 户 登录 以 后 ， 就 切换 到 了 Player.Signin 状 态 ， 而 在 
Signin 状 态 的 行为 是 不 需要 做 是 否 已 经 登录 的 判断 的 ， 这 是 因为 除了 合 
录 成 功 ，User 的 5 实例 无 法 跳 转 到 Signin 状 态 ， 友 过 来 说 就 是 只 要 当前 状 
态 是 Signin， 那 必定 已 经 登录 ， 自然 无 须 再 验证 。 











可 以 看 到 ， 通 过 状态 模式 ， 
下 文 判 晰 ， 但 比 它 更 棒 的 是 真 的 一 个 计 ...raise... 都 没有 了 。 另 外 ， 
多 重 判 断 的 时 候 要 给 一 个 方法 戴 上 四 五 项“ 帽子 ”的 情况 也 没有 了 ， 还 通 
过 把 多 个 方法 分 派 到 不 同 的 状态 类 ， 消 灭 摊 一 般 情 况 下 Player 总 是 一 个 
巨 类 的 “ 坏 味道 ”， 保 持 类 的 短小 ， 更 容易 维护 和 重用 。 不 过 这 些 都 比 不 
上 一 个 更 大 的 好 处 : 当 调 用 当前 状态 不 存在 的 行为 时 ， 出 错 信息 抛 出 的 
是 AttributeError， 从 而 避免 把 问题 变 为 复杂 的 逻辑 错误 ， 让 程序 员 更 容 
易 找 到 出 错位 置 ， 进 而 修正 问题 。 














第 6 草 ”内 部 机 制 


“ 知 其 然 还 必须 知 其 所 以 然 "， 除 了 掌握 Python 本 和 喘 的 语法 以 及 使 用 
外 ， 对 其 内 部 机 制 的 探索 可 以 让 我 们 更 深入 地 理解 和 掌握 语言 本 里 所 强 
含 的 思想 和 理念 。 本 章 将 探讨 Python 的 一 些 内 部 机 制 以 及 高 于 语法 级 别 
的 话题 ， 包 括 名 字符 找 机 制 、 描 述 符 、 对 象 的 管理 与 回收 ， 以 及 迭代 器 
通过 本 章 ， 和 希望 读者 可 以 更 好 地 理解 和 掌握 Python 的 精髓 及 其 
阵 学 原理 。 





建议 54: 理解 built-in objects 


我 们 知道 Python 中 一 切 颖 对 象 . 字符 是 对 象 ， 列 表 是 对 象 ， 内 建 类 
型 (built-in type) 也 是 对 象 ， 用 户 定 义 的 类 型 是 对 象 ，object 是 对 象 ， 
type 也 是 对 象 。 自 Python2.2 之 后 ， 为 了 弥补 内 建 类 型 和 古典 类 (classic 
classes) 之 间 的 鸿沟 ”25 引入 了 新 式 类 (new-style ”classes ) 。 在 新 式 类 
中 ，object 是 所 有 内 建 类 型 的 基 类 ， 用 户 所 定义 的 类 可 以 继承 自 object 也 
可 继承 自 内 建 类 型 。 


那么 内 建 类 object、type 以 及 用 户 所 定义 的 类 之 间 到 底 有 什么 关 
系 呢 ? ee 不 同 吗 ? 我 们 来 看 一 个 简单 的 例子 : 














class A: 
四 古典 类 A 
pass 
class B(object): 
pass 
lass C(type): 
ass 
class D(dict): 


2D 
继承 自 内 建 类 型 dict 
pass 





现在 有 类 A、B、C、D 的 实例 分 别 对 应 为 a、b、c、d， 我 们 来 看 一 
组 求 值 的 结果 ， 如 表 6-1 所 示 。 


表 6-1 不 同 对 象 求 值 结 


isinstance | isinstance 
电 济 (*,type) 


<class' main .BS> 恨 
<class' main .C0> type>， El 


<class' main .D> |<class' main .D> ‘dict>, | 慨 





注 : 上 表 中 求 值 时 * 用 表 中 第 一 列 的 元 素 代 蔡 。 
从 表 6-1 中 我 们 可 以 得 出 如 下 结论 : 
object[1] 和 古典 类 [3] 没 有 基 类 ，type[2] 的 基 类 为 object。 


-新式 类 [4],[5],[6]〉 中 type0O 的 值 和 __class_ 的 值 是 一 样 的 ， 但 古 
典 类 [3] 中 实例 的 type 为 instance， 其 type0 的 值 和 __class_ 的 值 不 一 样 。 


继承 自 内 建 类 型 的 用 户 类 的 实例 [6] 也 是 object 的 实例 ，object[1] 是 
type 的 实例 ，type 实 际 是 个 元 类 (metaclass) 。 


:object 和 内 建 类 型 以 及 所 有 基于 type 构 建 的 用 户 类 [5] 都 是 type 的 实 
例 。 


-在 古典 类 中 ， 所 有 用 户 定 义 的 类 的 类 型 都 为 instance。 
综 上 ， 不 同类 型 的 对 象 之 间 的 关系 如 图 6-1 所 示 。 


New style class Classic class 





图 6-1 不 同类 型 对 象 的 关系 图 


我 们 知道 古典 类 和 新 式 类 的 一 个 区 别 是 : 新 式 类 继承 目 object 关 或 
者 内 建 类 型 。 那 么 是 不 是 可 以 这 么 理解 : 如 果 一 个 类 定义 的 时 候 继承 自 
object 或 者 内 建 类 型 ， 那 么 它 就 是 一 个 新 式 类 ， 人 否则 则 是 古典 类 ? 我 们 
来 看 一 个 例子 : 





>>> class TestNewClass: 

全 _ metaclass = type 
QO@@ 设 置 _metaclass_ 
属性 为 type 


>>> type(TestNewClass) 
<type 'type'> 

>>> TestNewClass. bases_ _ 
(<type 'object'>,) 

Sa 


>>> a= TestNewClass() 
a) 


>>> type 

<class ' main .TestNewClass'> 
Sw a Class 

<class ' main .TestNewClass'> 


5 


从 上 述 例子 我 们 可 以 看 出 ，TestrNewClass 在 定义 的 时 候 并 没有 继承 
任何 类 ， 但 测试 的 结果 表明 其 父 类 为 object， 它 还 是 属于 新 式 类 。 这 其 
中 的 原因 在 于 TestrNewClass 中 设置 了 __metaclass_ 属 性 (关于 元 类 的 更 
多 介绍 可 以 参看 后 面 的 章节 ) 。 所 以 我 们 并 不 能 简单 地 从 定义 的 形式 上 
来 判断 一 个 类 是 新 式 类 还 是 古典 类 ， 而 应 当 通 过 元 类 的 类 型 来 确定 类 的 
类 型 : 古典 类 的 元 类 为 types.ClassType， 新 式 类 的 元 类 为 type 类 。 


新 式 类 相对 于 古典 类 来 次 有 很 多 优势 : 能 够 基于 内 建 类 型 构建 新 的 
用 户 类 型 ， 文 持 property 和 描述 符 特 性 等 。 作 为 新 式 类 的 祖先 ，Object 类 
中 还 定义 了 一 些 特殊 方法 ， 如 : _ new_()，_ init 0， delattr_ (0)， 
__getattribute (),，_setattr (), _ hash _ 0， _ repr (0，_ str_ (0 等。 
object 的 子 类 可 以 对 这 些 方法 进行 敢 盖 以 满足 自身 的 特殊 需求 ， 建 议 62 
中 会 对 其 中 某 些 内 容 详细 阐述 ， 感 兴趣 的 读者 可 以 阅读 。 


ie 


在 Python 中 一 切 皆 对 象 ，type 也 是 对 象 。 


1 这 里 的 鸿沟 指 的 是 : 在 2.2 版 本 之 前 ， 类 和 类 型 并 不 统一 ， 如 a 是 古典 
类 ClassA 的 一 个 实例 ， 那 么 a._class”_ 返回 ‘class_main ClassA’， 
type(a) 返 回 <type 'instance>。 当 引入 新 类 后 ， 比 如 ClassB 是 个 新 类 ，b 是 
ClassB 的 实例 ，b._class ”和 type(b) 都 是 返回 "class main .ClassB’。 




















建议 55: _init_ 0 不 是 构造 方法 


很 多 Pythoner 会 有 这 样 的 误解 ， 认 为 init 0 方法 是 类 的 构造 方 
法 。 因 为 从 表面 上 看 它 确 实 很 像 构 造 方法 : 当 需 要 实例 化 一 个 对 象 的 时 
候 ， 使 用 a=Class(args...) 便 可 以 返回 一 个 类 的 实例 ， 其 中 args 的 参数 与 
申明 的 参数 一 样 。 可 是 事实 真相 是 怎样 的 呢 ? 我 们 通过 
列子 说 明 。 











class A(object): 
def _new 








(cls, “arg “kwargs) 
prinmt els 
print args 
print kwarg 
print "--------- 
instance bject. new_ (cl g Kk gs) 
print instance 
def it_ (self,a，b) 
print "init get alled 
print "self i self 
lf.a, self.b > 坟 
1=A(1,2) 
print ai.a 
print ai.b 
;二 4 二 不 口 > 人、 
运行 程序 输出 如 下 : 
<class '_ main .A'> 
(1, 2) 


pr .a 
AttributeError: 'NoneType' object has no attribute 'a' 





我 们 原本 期 望 的 是 能 够 正确 输出 a 和 b 的 值 ， 可 是 运行 却 抛 出 了 蜡 

常 。 除 了 异常 外 还 有 来 自 对 _new_ 0 方法 调用 所 产生 的 输出 ， 可 是 我 
们 明明 没有 直接 调用 _new_0 方 法， 原因 在 哪里 ? 实际 上 _ init 0 并 
不 是 真正 意义 上 的 构造 方法 ，_init 0 方法 所 做 的 工作 是 在 类 的 对 象 创 
建 好 之 后 进行 变量 的 初始 化 。_new_ 0 方法 才 会 真正 创建 实例 ， 是 类 
的 构造 方法 。 这 两 个 方法 都 是 object 类 中 默认 的 方法 ， 继 承 自 object 的 新 
式 类 ， 如 果 不 履 善 这 两 个 方法 将 会 默认 调用 object 中 对 应 的 方法 。 上 面 
的 程序 抛 出 异常 是 因为 _new_ 0 方法 中 并 没有 显 式 返 回 对 象 ， 因 此 实 
际 上 al 为 None， 当 去 访问 实例 属性 a 时 抛 出 “AttributeError: ”'NoneType' 
object has no attribute 'a” 的 错误 也 惑 不 难 理解 了 。 





我 们 来 看 看 _new_() 方 法 和 _ init (0) 方 法 的 定义 。 


:object，new_ ( cls [ ,args...] ) : 其 中 ds 代表 类 ，args 为 参数 列 
2 


object. init _( self [ ,args...] ) : 其 中 self 代 表 实 例 对 象 ，args 为 参 
数列 表 。 


这 两 个 方法 之 间 有 些 不 同 点 ， 总 结 如 下 : 


.根据 Python 文档 
(http://docs.python.org/2/reference/datamodel.html#object. new ) 可 
知 ，__new_ 0 方法 是 静态 方法 ， 而 __init_ 0 为 实例 方法 。 


__new_ (方法 一 般 需 要 返回 类 的 对 象 ， 当 返回 类 的 对 象 时 将 会 日 
动 调 用 _init_() 方 法 进行 初始 化 ， 如 果 没 有 对 象 返回 ， 则 _init 0 方法 
不 会 被 调用 。__init_() 方 法 不 需要 显 式 返回 ， 默 认为 None， 人 否则 会 在 运 
行 时 抛 出 TypeError。 


` 当 需要 控制 实例 创建 的 时 候 可 使 用 _new_0 〇 方法 ， 而 控制 实例 初 
始 化 的 时 候 使 用 _init_0 〇 方法 。 


一 般 情况 下 不 需要 和 窗 新 ”new_0 〇 方法， 但 当 子 类 继承 自 不 可 变 类 
型 ， 如 str、int、unicode 或 者 tuple 的 时 候 ， 往 往 需要 履 盖 该 方法 。 


- 当 需 要 履 兰 new_0 和 _ init 0 方法 的 时 候 这 两 个 方法 的 参数 必 
须 保持 一 致 ， 如 果 不 一 致 将 导致 异常 。 示 例如 下 : 











>> class Tes 加 人 的 
def A 


et urn er0res st,cls). new (cls) 
def it 1 ETF x y): 
se self- X=X 
Self.y = y 


>>> Test(1) 
了 ac a kK (mo Sk, a ece ne 0 二 SE Ys 


File "<stdi line 1, module> 
Eo it ey ta Kes a ctly 3 arguments (2 given) 
>>> Test(2,3) 
Traceback (most recen t call last): 
File "<stdin>", line 1, in <module> 
TypeError: _ new_ () takes exactly 2 arguments (3 given) 
>>> 
| 


前 面 我 们 提 到 ， 一 般 情 况 下 履 盖 _init_() 方 法 就 能 满足 大 部 分 需 
求 ， 那 么 在 什么 特殊 情况 下 需要 窗 盖 new_0 方 法 呢 ? 有 以 下 几 种 情 
遍 : 


1) 当 类 继承 《如 str、int、unicode、tuple 或 者 forzenset 等 ) 不 可 变 
类 型 且 默 认 的 _new__0 方 法 不 能 满足 需求 的 时 候 。 来 看 一 个 例子 : 假 
设 我 们 需要 一 个 不 可 修改 的 集合 ， 该 集合 能 够 将 任何 以 空格 隔 开 的 字符 
串 变 为 集合 中 的 元 素 。 现 在 不 窗 新 new_ 0 方法 ， 仪 窗 新 ”init_ (0) 方 
法 看 看 是 人 否 可 行 。 








class Use eo CP zenset 
def _ (self, arg= OnE 


frozenset. init_ (se elf, arg) 
print UserSet("I am testing ") 
print frozenset("I am testing ") 





运行 程序 发 现 其 输出 如 下 : 





Userset(['a', ' ', 'e'’, 'g', Im ‘Nn', ‘i', 's', 't']) 
frozenset(['a', ' ', 'e', 'g', I’, m', Nn', 'i', 's', 't']) 





显然 没有 满足 用 户 的 需求 ， 用 户 希 望 得 到 的 输出 是 UserSet ( [7T， 
'frozen', 'set', 'am', 'tesing'] ) 。 实 际 上 这 些 不 可 变 类 型 的 _ init_0 方 法 是 
个 伪 方 法 ， 必 须 重 新 攻 新 ”new_ 0 〇 方法 才能 满足 需求 。 new_ 0 〇 方法 
实现 的 代码 如 下 : 





def _new_(cls A ys 
if args and isinstance 人 [9]，basestring) : 
8 = (args[0]. ED 人) ar0s[2:] 
return super (UserSet, cls). new (cls, *args) 








2) .用 米 实现 工 广 做 式 或 着 由 例 入 式 或 者 进行 元 大 编程 (元 类 编程 
中 党 第 需要 使 用 _new_0 来 控制 对 象 创建 。 这 部 分 内 容 会 在 建议 62 中 
进行 痢 述 ) 的 时 候 。 以 简单 工厂 为 例子 ， 它 由 一 个 工厂 类 根据 传 入 的 参 
属于 类 的 创建 型 模式 。 其 类 的 关系 
中 入 6-2 扩 不 。 










Shape(Object) 

| 

+ init () 
tHdraw!() 


ShapeFactory 


Trapezoid 





Triangle Shapess 


+ new () 
| 
+ init () + init () + init () 
tHdraw() tdraw() tHdraw() 

图 6-2 ”简单 工厂 模式 类 关系 示意 图 
工厂 模式 的 实现 代码 如 下 : 








class Shape(object): 
def _ init (object): 
pass 
def draw(self): 
pass 
class Triangle(Shape): 
def _ init__(self): 
rint " I am a triangle" 
def draw(self): 
print "I am drawing triangle" 
class Rectangle(Shape): 
def _ init__(self): 
rint " I am a rectnagle" 
def draw(self): 
print "I am drawing triangle" 
class Trapezoid(Shape): 
def _ init__(self): 
print " I am a trapezoid" 
def draw(self): 
print "I am drawing triangle" 
class Diamond(Shape): 
def _ init__(self): 
print " I am a diamond" 
def draw(self): 
print "I am drawing triangle" 
class ShapeFactory(object): 
shapes = {'triangle': Triangle, 'rectangle': Rectangle, 'trapezoid': 
Trapezoid, 'diamond': Diamond} 
def _ new__(klass, name): 
if name in ShapeFactory.shapes.keys(): 
print "creating a new Shape %s" % name 
return ShapeFactory.shapes[name]() 
else: 
print "creating a new shape %s" % name 
return Shape() 





在 ShapeFactory 类 中 重新 入 新 了 _new_ (0) 方法， 外界 通过 调用 该 方 
法 来 创建 其 所 需 的 对 象 类 型 ， 但 如 果 所 请 求 的 类 是 系统 所 不 支持 的 ， 则 


返回 Shape 对 象 。 在 引入 了 工厂 类 之 后 ， 只 需要 使 用 如 下 形式 束 可 以 创 
建 不 同 的 图 形 对 象 : 


ShapeFactory( 'rectangle' ) .draw() 


3) 作为 用 来 初始 化 的 _ init_0 方 法 在 多 继承 的 情况 下 ， 子 类 的 
_init (方法 如 果 不 显 式 调用 父 类 的 _init_0 方 法 ， 则 父 类 的 _ init_0 
方法 不 会 被 调用 。 





程序 输出 为 : I am B's_init _。 父 类 A 的 _init 0 方法 并 没有 被 调 
用 ， 所 以 要 初始 化 父 类 中 的 变量 需要 在 子 类 的 _init_0 〇 方法 中 使 用 super 
( B,self ) .init 0。 对 于 多 继承 的 情况 ， 我 们 可 以 通过 迭代 子 类 的 
”bases ”属性 中 的 内 容 来 逐一 调用 父 类 的 初始 化 方法 。 


Ons 


_ new_ 0 〇 方法 才 是 类 的 构造 方法 ， 而 _init 0 不 是 。 








建议 56: 理解 名 字 奉 找 机 制 


在 Python 中 ， 所 有 所 谓 的 变量 ， 其 实 都 是 名 字 ， 这 些 名 字 指 向 一 
或 多 个 Python 对 象 。 比 如 以 下 代码 : 








>>> a = 工 
>>> b = a 

>>> C = 'china' 
>>> id(a) id(b) 
True 

>>> id(a) == id(c) 
Fal 





从 中 我 们 可 以 看 出 ， 名 字 a 和 b 指 癌 同一 个 Python 对 象 ， 即 一 个 int 类 
型 的 对 象 ， 这 个 对 象 的 值 为 1， 而 c 则 指 癌 男 一 个 Python 对 象 ， 它 是 一 个 
str 类 型 的 对 象 。 所 有 的 这 些 名 字 ， 都 存在 于 一 个 表 里 〈 又 称 为 命名 空 
间 ) ， 一 般 情 况 下 ， 我 们 称 之 为 局 部 变量 (locals) ， 可 以 通过 locals() 
函数 调用 看 到 。 





>>> locals() 
Ta hn bls te hulltins "> amody 1e， "builtin __' (built-in)>, 
doc : None} 


’ | 
'_ package ': None, '_name ': '_ main __', 








现在 我 们 是 直接 在 Python shell 中 执行 这 一 些 代码 ， 实 际 上 这 些 变 量 
也 是 全 局 的 ， 所 以 在 一 个 叫 globals 的 表 里 也 可 以 看 到 。 





>>> globals() 
{'a': 1, 'c': china'，'b': 1，' builtins ': <module ' builtin _ ' (built-in)>, 
'_package_ _': None, ' ame_': ' main ', '_doc None} 








如 采 我 们 在 一 个 函数 里 面 定 义 这 些 变 量 ， 情 况 会 有 所 不 同 。 





>>> def oo (0) 
es f = s 
gs "chi 
print locals() 


print 
prin 中 glovals) 
prin 


i 区 
DE 和 全 局 本 各 
> ,foo(1 
"hd 
stereo 
了 


na 
in)>， '__packa i on name, 
Ox 104fa d320>, '_ doc _': None} 
I 
chi 





Re 
Cc 等 名 字 ， 只 有 定义 在 函数 内 的 e、f、g 和 函数 形 参 x， 这 是 什么 原因 
呢 ? 要 回答 这 个 问题 题 ， 首 先 要 理解 Python 中 变量 的 作用 域 。 


Python 中 所 有 的 变量 名 都 是 在 赋值 的 时 候 生成 的 ， 而 对 任何 变量 名 
的 创建 、 得 找 或 者 改变 都 会 在 命 8 名 空间 (Cnamespace) 中 进行 。 变 量 名 
所 在 的 命名 空间 直接 决定 了 其 能 访问 到 的 范围 ， 即 变量 的 作用 域 。 
Python 中 的 作用 域 自 Python2.2 之 后 分 为 局 部 作用 域 (local)、 全 局 作用 
域 (Global) 、 髓 套 作 用 域 (enclosing functions locals) 以 及 内 置 作 用 域 
(Build-in) 这 4 种 。 


局 部 作用 域 : 一 般 来 说 函数 的 每 次 调用 都 会 创建 一 个 新 的 本 地 作 
用 域 ， 拥有 新 的 命名 空间 。 因 此 函数 内 的 变量 名 可 以 与 函数 外 的 其 他 变 
量 名 相同 ， 由 于 其 命名 空间 不 同 ， 并 不 会 产生 冲突 。 默 认 情 况 下 函数 内 
部 任意 的 赋值 操作 (包括 = 语句 、import 语 句 、def 语 句 、 参 数 传递 等 ) 
所 定义 的 变量 名 ， 如 果 没 用 global 语 句 ， 则 申明 都 为 局 部 变量 ， 即 仅 在 
该 函数 内 可 见 。 


.全 局 作用 域 : 定义 在 Python 模块 文件 中 的 变量 名 拥有 全 局 作用 域 ， 
要 注意 的 是 这 里 的 全 局 仅 限 单个 文件 ， 即 在 一 个 文件 的 顶层 的 变量 名 
仅 在 这 个 文件 内 可 见 ， 并 非 所 有 的 文件 ， 其 他 文件 中 想 使 用 这 些 变量 名 
必须 先导 入 文件 对 应 的 模块 。 当 在 函数 之 外 给 一 个 变量 名 赋值 时 是 在 其 
全 局 作用 域 的 情况 下 进行 的 。 


' 舱 套 作用 域 : 一 般 在 多 重 函 数 租 套 的 情况 下 才 会 考虑 到 。 需 要 注 
意 的 是 global 语 句 仅 针对 全 局 变量 ， 在 授 套 作用 域 的 情况 下 ， 如 果 想 在 
供 套 的 函数 内 修改 外 层 函 数 中 定义 的 变量 ， 即 使 使 用 global 进 行 申 明 也 
不 能 达到 目的 ， 其 结果 最 终 是 在 藤 套 的 函数 所 在 的 命名 空间 中 创建 了 一 
个 新 的 变量 。 示 例如 下 : 


























内置 作 用 域 : 这 个 相对 简单 ， 它 是 通过 一 个 标准 库 中 名 为 
builtin_ 的 模块 来 实现 的 。 


回 到 前 面 代码 中 标注 QD 的 语句 print ”c， 仍 然 正确 输出 了 china 这 个 
值 。 这 是 因为 当 访 问 一 个 变量 的 时 候 ， 其 查找 顺序 遵循 变量 解析 机 制 
LEGB 法 则 ， 即 依次 搜索 4 个 作用 域 : 局 部 作用 域 、 舱 套 作用 域 、 全 局 作 
用 域 以 及 内 置 作用 域 ， 并 在 第 一 个 找到 的 地 方 停止 搜寻 ， 如 有 果 没 有 搜 
到 ， 则 会 抛 出 异 第 。 因 此 当 存 在 多 个 同名 变量 的 时 候 ， 操 作 生 效 的 往往 
征 搜索 顺序 在 前 的 。 有 具体 来 说 Python 的 名 字 碍 找 机 制 如 下 : 


1) 在 最 内 层 的 范围 内 碍 找 ， 一 般 而 言 ， 就 是 函数 内 部 ， 即 在 
locals() 里 面 查 找 。 


2) 在 模块 内 查找 ， 即 在 globals() 里 面 查找 。 
3) 在 外 层 查 找 ， 即 在 内 置 模块 中 查找 ， 也 就 是 在 _builtin_ 中 查 
A 





至 此 ， 我 们 可 以 理解 清楚 能 够 在 foo0 函 数 中 访问 到 名 字 c 的 原因 在 
于 当 Python 在 局 部 变量 中 找 不 到 c 时 ， 它 会 尝试 在 模块 级 的 全 局 变量 中 
查找 ， 并 成 功 地 找到 该 名 字 。 


不 过 ， 当 我 们 试图 改变 全 局 变量 的 值 时 ， 事 情 可 能 跟 想 象 的 稍 有 不 











局 


>>> def bar(): 
二 Cc = 'america' 


print c 


america 








真 奇怪 ! 不 是 吗 ? 在 bar() 函 数 中 修改 c 的 值 ， 并 没有 修改 到 全 局 变 
量 的 c， 而 是 好 像 bar0 函 数 有 了 一 个 局 部 变量 c 一 样 ! 事实 上 确实 如 此 ， 
在 CPython 的 实现 中 ， 只 要 出 现 了 赋值 语句 《或 者 称 为 名 字 绑 定 ) ， 那 
么 这 个 名 字 就 被 当 作 局 部 变量 来 对 符 。 所 以 在 这 里 如 果 需 要 改变 全 局 变 
量 c 的 值 ， 就 需要 使 用 global 关 键 字 。 














america 


america 





不 过 ， 随 看 更 多 Python 特 性 的 加 入 ， 事 情 变 得 更 加 复杂 起 来 。 比 如 
在 Python 闭 包 中 ， 有 这 样 的 问题 





过 

Soo~ 

Ee 

B= 
a 





从 上 例 中 可 以 看 出 ， 在 闭 包 bar() 中 ， 在 编译 代码 为 字 闻 码 时 ， 因 为 
存在 a=b+1 这 条 语句 ， 所 以 a 被 当 作 了 局 部 变量 看 待 ， 而 执行 时 因为 
b=a*2 先 执行 ， 此 时 局 部 变量 a 尚 不 存在 ， 所 以 产生 了 一 个 
UnboundLocalError。 在 Python2.x 中 可 以 使 用 global 关 键 字 解决 部 分 问 
题 ， 先 把 a 创 建 为 一 个 模块 全 局 变量 ， 然 后 在 所 有 恋 写 《包括 只 是 访 
问 ) 该 变量 的 作用 域 中 都 要 先 使 用 global 声 明 其 为 全 局 变量 。 





global a 

a = ax* X 

def bar(): 
global a 
本 
:i 
print a 

return bar 


>>> foo(1)() 
ec 











这 种 方案 抛 开 编 程 语言 并 不 提倡 全 局 变量 不 谈 ， 有 的 时 候 还 影响 业 
务 逻 辑 。 此 外 ， 还 有 把 a 作 为 容器 的 一 个 元 素来 对 竺 的 方案 ， 但 也 都 相 
当 复 杂 。 真 正 的 解决 方案 是 Python3 引 入 的 nonlocal 关 键 字 ， 通 过 它 能 够 
解决 这 方面 的 问题 。 





>>> def foo(x): 
这 三光 
def bar(): 
nonlocal a 
二 2 
a 小 汪 
print(a) 
return bar 
>>> bar1 = foo(1) 


ee | 


建议 57: 为 什么 需要 self 参 数 


self 想 必 大 家 都 不 陌生 ， 在 类 中 当 定 义 实例 方法 的 时 候 需 要 将 第 一 
个 参数 显 式 声明 为 self， 而 调用 的 时 候 并 不 需要 传 入 该 参数 。 我 们 可 以 
使 用 self.x 来 访问 实例 变量 ， 也 可 以 在 类 中 使 用 self.m() 来 访问 实例 方 
法 。self 的 使 用 示例 如 下 : 








class SelfTest(object): 
def _ init__(self,name): 
Self.name = nam 

def showself(self): 
rint "se 由 
def display(self) 
self .shows 


st.display() 
print "%X"%(id(st)) 








上 例 中 我 们 使 用 self.name 来 表示 实例 变量 name， 在 display 方 法 中 使 
用 self.showself() 来 调用 实例 方法 showself()， 并 且 调 用 的 时 候 没 有 显 式 传 
入 self 参 数 。 程 序 输出 如 下 : 





self here is< main_ .SelfTest object at OQx00D67C10> 
('The name is:', 'instance self') 
D67C10 





从 上 述 输 出 中 可 以 看 出 ，self 表 示 的 束 是 实例 对 象 本 里 ， 妈 SelfTest 
类 的 对 象 在 内 存 中 的 地 址 。self 是 对 对 象 st 本 身 的 引用 。 我 们 在 调用 实例 
方法 的 时 候 也 可 以 直接 传 入 实例 对 象 : 如 : SelfTest.display(st)。 其 实 
self 本 身 并 不 是 Python 的 关键 字 〈cls 也 不 是 ) ， 可 以 将 self 蔡 换 成 任何 你 
喜欢 的 名 称 ， 如 this、obj 等 ， 实 际 效果 和 self 是 一 样 的 〈 并 不 推荐 这 样 
做 ， 使 用 self 更 符合 约定 俗 成 的 原则 ) 。 


也 许 很 多 人 感受 self 最 奇怪 的 地 方 就 是 ， 在 方法 声明 的 时 候 需 要 定 
义 self 作 为 第 一 个 参数 ， 而 调用 方法 的 时 候 却 不 用 传 入 这 个 参数 。 虽 然 
这 并 不 影响 语言 本 身 的 使 用 ， 而 且 也 很 容易 遵循 这 个 规则 ， 但 多 多 少 少 
会 在 心里 问 一 问 : 既然 这 样 ， 为 什么 必须 在 定义 方法 的 时 候 声明 self 参 
数 昵 ? 去 掉 第 一 个 参数 self 不 是 更 简洁 吗 ? 就 如 C++ 中 的 this 指 针 一 样 。 
我 们 来 简单 探讨 一 下 为 什么 需要 self。 




















1) Python 在 当初 设计 的 时 候 借鉴 了 其 他 语言 的 一 些 特 征 ， 如 
Moudla-3 中 方法 会 显 式 地 在 参数 列表 中 传 入 self。Python 起 源 于 20 世 纪 
80 年 代 末 ， 那 个 时 候 的 很 多 语言 都 有 self， 如 Smalltalk、Modula-3 等 。 
Python 在 最 开始 设计 的 时 候 受到 了 其 他 语言 的 影响 ， 因 此 借鉴 了 其 中 的 
一 些 理念 〈 注 : 即使 不 了 解 Smalltalk、Modula-3 也 没有 关系 ， 此 处 只 是 
为 了 说 明 当 初 在 设计 Python 时 借鉴 了 其 他 语言 的 一 些 特点 ) 。 下 面 这 段 
话 摘自 Guido 1998 年 接受 的 一 个 访问 ， 他 自己 也 提 到 了 这 一 点 。 





Andrew:What other languages or systems have influenced Python's 
design?《〈 在 Python 的 设计 过 程 中 受到 了 哪些 语言 或 者 系统 的 影响 ? ) 


Guido:There have been many.ABC was a major influence,of 
course,since I had been working on it at CWI.It inspired the use of 
indentation to delimit blocks,which are the high-level types and parts of 
object implementation.I'd spent a summer at DEC's Systems Research 
Center,where I was introduced to Modula-2+;theModula-3final report was 
being written there at about the same time. What I learned there showed up in 
python's exception handling,modules,and the fact that methods explicitly 
contain “self” in their parameter list.String slicing came from Algol-68 and 
Icon.《 有 很 多 ， 当 然 ， ABC 影 响 最 大 ， 因 为 在 CWI 的 时 候 我 一 直 在 研究 
它 。 它 局 发 了 我 使 用 缩 进来 分 块 ， 这 些 是 高 级 的 类 型 以 及 部 分 对 象 的 实 
现 。 我 在 DEC 的 系统 研究 中 心 花 费 了 一 个 嗜 假 的 时 间 ， 在 那里 我 学 到 了 
Modula-2+。 而 Modula-3 也 是 在 同一 时 期 在 那里 被 实现 的 。 我 在 那里 学 
到 的 ， 在 Python 的 异常 处 理 、 模 块 以 及 方法 的 参数 列表 中 显 式 包含 self 
中 都 有 体现 ， 而 字符 串 的 分 隔 则 是 从 Algol-68 和 Icon 中 信 鉴 的 。) 


2) Python 语言 本 身 的 动态 性 决定 了 使 用 self 能 够 带 来 一 定 便利 。 下 
例 中 len 表 示 求 点 到 原点 距离 的 函数 ， 现 在 有 表示 直角 三 角形 的 类 
Rtriangle， 我 们 发 现 求 第 三 边 边 长 和 len 所 实现 的 功能 其 实 是 一 样 的 ， 所 
以 打算 直接 重用 该 方法 。 由 于 self 在 函数 调用 中 是 隐 式 传递 的 ， 因 此 当 
直接 调用 全 局 函数 len0 时 传 入 的 是 point 对 象 ， 而 当 在 类 中 调用 该 方法 
时 ， 使 用 self 可 以 在 调用 的 时 候 决定 应 该 伟 
入 哪 一 个 对 象 。 











>>> def len(point ) : 
A return math.sqrt(point.x ** 2 + point.y ** 2) 
>>> class RTriangle(object): 
人 def _ init (self,right_angle_ sideXx,right_angle_ sideyY): 


Self.right_angle_sidex = right_angle_sideX 
self.right_angle_sideY = right_angle_sideY 


>>> RTriangle.len = len 
Wi = RTriangle(3,4) 
>> rt.1len() 

5.0 

>> 


一 
全 





Python 属 于 一 级 对 象 语言 (first class object) ， 如 果 m 是 类 A 的 一 个 
方法 ， 有 好 几 种 方式 都 可 以 引用 该 方法 ， 如 下 例 所 示 : 








>>> class A: 
def m(self,value): 
pass 


2 A iG 
<function m at QOx00D617BO> 
>>> A.m._ func 

<function m at QOx00D617BO> 





实例 方法 是 作用 于 对 象 的 ， 如 果 用 户 使 用 上 述 两 种 形式 来 调用 方 
法 ， 最 简单 的 方式 就 是 将 对 象 本 映 传递 到 该 方法 中 去 ，self 的 存在 保证 
了 A._ dict_['m'] (a2) 的 使 用 和 a.(2) 一 致 。 同 时 当 子 类 堵 盖 了 父 类 中 
的 方法 但 仍然 想 调用 该 父 类 的 方法 的 时 候 ， 可 以 方便 地 使 用 
baseclass.methodname ( self，<argument list> ) 或 super ( childclass，self ) 
.methodname ( < argument list > ) 来 实现 。 


3) 在 存在 同名 的 局 部 变量 以 及 实例 变量 的 情况 下 使 用 self 使 得 实例 
变量 更 容易 被 区 分 。 














value = 'default global' 
class Test(object): 
def _ init (self,pari1): 
Value = par1+"------ 
self.value = Value 
def show(self): 
print self.value 
print value 
a = Test("instance") 
show() 











上 述 程序 中 第 一 个 value 为 全 局 变量 ， 第 二 个 为 局 部 变量 ， 仅 仅 在 方 
法 中 可 见 ， 而 类 同时 定义 了 一 个 实例 变量 value。 如 果 没 有 self， 我 们 很 
"a 哪个 表示 实例 变量 ， 有 了 self 这 一 切 一 
目 了 然 了 。 


其 实 关 于 要 不 要 self 或 者 要 不 要 将 self 作 为 关键 字 一 直 是 一 个 很 有 和 争 








议 的 问题 ， 也 有 人 提 了 一 些 修正 建议 。 但 Guido 认 为 ， 基 于 Python 目前 
的 一 些 特性 〈“ 如 类 中 动态 添加 方法 ， 在 类 风格 的 装饰 器 中 没有 self 无 法 
确认 是 返回 一 个 静态 方法 还 是 类 方法 等 ) 保留 其 原 有 设计 是 个 更 好 的 选 
择 ， 更 何况 Python 的 哲学 是 : 显 式 优 于 隐 式 (Explicit is better than 
implicit.) 。 个 人 体会 是 除了 在 定义 的 时 候 多 输入 几 个 字符 外 ，self 的 存 
在 并 不 会 给 用 户 融 来 太 多 困扰 ， 我 们 没有 必要 过 分 纠结 于 它 是 人 否 应 该 存 
在 这 个 问题 。 











建议 58: 理解 MRO 与 多 继承 
a 跟 其 他 编程 语言 一 样 ，Python 也 支持 多 继承 。 多 继承 的 语法 非常 简 





class DerivedClassName(Base1，Base2，Base3) 





谈 到 多 继承 ， 我 们 来 讨论 一 下 图 6-3 所 示 的 雄 形 继承 的 经 典 问 题 。 





A 


Hgetvalue() 
tshow!() 












G 
B 
| Hgetvalue() 
rgetvalue() Hshow'() 





图 6-3 多 继承 UML 示 意图 


假设 有 图 6-3 所 示 继 承 关 系 ， 当 用 古典 类 实现 的 时 候 ， 如 果 有 实例 
d=DO， 当 调用 d.getvalue0 和 d.show(0) 方 法 的 时 候 分 别 对 应 哪个 父 类 中 的 


方法 ? 当 改 为 新 式 类 来 实现 时 ， 结 果 又 将 是 怎样 的 呢 ? 我 们 来 看 具体 实 
现 : 





class A(): 
def getvalue(self): 
rint "return value of A" 
def show(self): 
print "I can show the information of A" 
class B(A): 
def getvalue(self): 
print "return value of B" 
class C(A): 
def getvalue(self): 
print "return value of C" 
def show(self): 
rint "I can show the information of C" 
class D(B,C) :pass 





当 用 古典 类 实现 的 时 候 我 们 会 发 现 ， 分 别 调用 的 是 B 类 的 getvalue() 
方法 和 A 类 中 的 show0 方 法 ， 而 当 改 为 新 式 类 实现 (请 读者 上 自行 验证 ) 
的 时 候 ， 结 果 却 变 为 调用 B 类 的 getvalue() 方 法 和 C 类 的 show0 方 法 。 从 两 
种 不 同 实现 方式 的 输出 上 也 可 以 证 实 这 一 点 。 


古典 类 输出 如 下 : 





return value of B 
I can Show the information of A 





新 式 类 输出 如 下 : 





return value of B 
I can Show the information of C 





为 什么 两 种 情况 下 输出 结果 会 有 所 不 同 呢 ?这 背后 到 捕 发 生 了 什 
么 ? 根本 原因 在 哪里 ? 实际 上 ， 导 人 致 这 些 不 同 点 的 根本 原因 在 于 古典 类 
和 新 式 类 之 间 所 采取 的 MRO (Method Resolution ”Order， 方 法 解析 顺 
序 ) 的 实现 方式 存在 差异 。 


在 古典 类 中 ，MRO 搜 索 采 用 简单 的 目 左 至 右 的 深度 优先 方法 ， 即 
按照 多 继承 申明 的 顺序 形成 继承 树 结 构 ， 目 顶 回 下 采用 深度 优先 的 搜索 
顺序 ， 当 找到 所 需要 的 属性 或 者 方法 的 时 候 就 停止 搜索 。 因 此 如 图 6-3 











所 示 ， 当 调用 d.getvalue() 的 时 候 ， 其 搜索 顺序 为 D->B， 所 以 调用 的 是 B 
类 中 对 应 的 方法 。 而 d.show0 的 搜索 顺序 为 D->B->A， 因 此 最 后 调用 的 
是 A 类 中 对 应 的 方法 。 

而 新 式 类 采用 的 是 C3 MRO 搜 索 方 法 ， 该 算法 描述 如 下 : 


假定 ，C1C2...CN 表 示 类 C1 到 CN 的 序列 ， 其 中 序列 头 部 元 素 
人 head)=C1， 序 列 尾 部 (taiD) 定 义 为 =C2..CN; 


C 继 承 的 基 类 自 左 同 右 分 别 表 示 为 Bl1，B2...BN; 
L[C] 表 示 C 的 线性 继承 关系， 其 中 L[object]=object。 
算法 具体 过 程 如 下 : 











L[C(B1 ... BN)] = C + merge(L[B1] ... L[BN], B1 ... BN) 





其 中 merge 方 法 的 计算 规则 如 下 : 在 L[B1]...L[BN],B1...BN 中 ， 取 
L[B1] 的 head， 如 果 该 元 素 不 在 L[B2]...L[BN],B1...BN 的 尾部 序列 中 ， 则 
添加 该 元 素 到 C 的 线性 继承 序列 中 ， 同 时 将 该 元 素 从 所 有 列表 中 删除 
(该 头 元 素 也 叫 good head) ， 人 否则 取 LIB2] 的 head。 继 续 相 同 的 判断 ， 
0 
一 个 异常 ) 。 


我 们 结合 上 面 的 例子 来 说 明 C3 MRO 算 法 的 具体 计算 方法 ， 以 新 式 
类 实现 的 上 述 鞭 形 继承 关系 如 图 6-4 所 示 。 


根据 算法 规则 有 如 下 关系 表达 式 : 








L(0)=0 
; L(A)=AO 


则 : 


L(B)=B+merge(L(A) )=B+merge(AO )=B+A+merge(0,0)=B,A,0 
L(C)=C+merge(L(A))=C+merge(A0)=C+At+merge(0,0)=C,A,0 
L(D)=D+merge(L(B),L(C),BC) 
=D+merge (BAO, CAO0, BC) 
=D+B+merge(AO, CAO,C)( 
下 一 个 计算 取 AO 
的 头 A 
， 但 A 
包含 在 CAO 
的 尾部 ， 因 此 不 满足 条 件 ， 
跳 到 下 一 个 元 素 CAO 
继续 计算 ) 
=D+B+C+merge(A0,AO) 
=D+B+C+A+0 =DBCAO 





因此 对 于 上 述 例子 ， 当 D 的 实例 d 调 用 getvalue0 和 show0) 方 法 时 按照 
D->B->C->A->O 的 顺序 进行 搜索 ， 在 第 一 个 找 个 该 方法 的 位 置 停止 搜索 
并 调用 该 类 对 应 的 方法 ， 因 此 getvalue0 会 在 B 的 类 中 找到 对 应 的 方法 ， 
而 show 会 在 CO 类 中 找到 对 应 的 方法 。 


关于 MRO 的 搜索 顺序 我 们 也 可 以 在 新 式 类 中 通过 查看 _mro_ 属性 
得 到 证 实 。D. mro “的 输出 如 下 : 











(<class' main_ <class' main .B'>,<class' main __ .C'>，<Cclass' mai 
n__ .A'>v<type' et >) 











实际 上 MRO 虽 然 叫 方 法 解析 顺序 ， 但 它 不 仅 是 针对 方法 搜索 ， 对 
于 类 中 的 数据 属性 也 适用 。 读 者 可 以 目 行 验证 。 


根据 C3 MRO 算 法 的 描述 ， 如 果 找 不 到 满足 条 件 的 good head， 则 会 
握 弃 该 元 素 从 而 对 下 一 个 元 素 进 行 查找 。 但 如 果 找 过 了 所 有 的 元 素 都 找 
不 到 符合 条 件 的 good head 会 怎么 样 呢 ? 来 看 一 个 具体 例子 。 








class A(object): pass 
class B(object): pass 
class C(A, B): pass 
@ 基 类 顺序 为 A 

，B 

class D(B, A): pass 
@ 基 类 顺序 为 B 


class ES D}: pass 





运行 程序 我 们 会 发 现 这 种 情况 下 有 有 弄 常 抛 出 。 





TypeError: Error when calling the me lS S 
Cannot create a consistent method resolution 


order (MRO) for bases B, A 





很 据 上 述 术 代 码 的 继承 关系 图 (请 读者 自行 男 出 ) 和 MRO 算 法 可 以 








当 算 法 进行 到 最 后 一 步 的 时 候 便 再 也 找 不 到 满足 条 件 的 head 了 ， 
hi. 发 现 其 包含 在 BAO 的 尾部 AO 中 ;， 同 

B 包 含 在 BO 中 ， 此 时 便 形 成 了 一 个 死 锁 ，Python 解 释 器 此 时 不 知道 
名 和 外 更 便 直 接 抛 出 异常 ， 这 就 是 上 述 例子 有 异常 抛 出 的 原 
天 。 





帮 形 继承 是 我 们 在 多 继承 设计 的 时 候 需要 尽量 避免 的 一 个 问题 。 


建议 59: 理解 描述 符 机 制 


除了 在 不 同 的 局 部 变量 、 全 局 变量 中 奋 找 名 字 ， 还 有 一 个 相似 的 场 
景 不 可 不 察 ， 那 就 是 查找 对 象 的 属性 。 在 Python 中 ， 一 切 篆 是 对 象 ， 所 
以 类 也 是 对 象 ， 类 的 实例 也 是 对 象 。 











>>> class MyClass(object ) : 
class attr = 工 





>>> MyClass._dict _ 
dict_proxy({'_ dict ': <attribute '_ dict ' of 'MyClass' objects>, ' 
module ': ' main ', '_ weakref ': <attribute '_ weakref__' 
of 'MyClass' objects>, '_ doc ': None, ' class attr': 1}) 








每 一 个 类 都 有 一 个 _dict 属性， 其 中 包含 的 是 它 的 所 有 属性 ， 叉 
称 为 类 属性 。 留 意 类 属性 的 最 后 一 个 元 系 ， 可 以 看 到 我 们 代码 中 定义 的 
属性 在 其 中 的 体现 。 





>>> my_instance = MyClass() 
>>> my_instance._ dict _ 
{} 











除了 与 类 相关 的 类 属性 之 外 ， 每 一 个 实例 也 有 相应 的 属性 表 
dict _) ， 称 为 实例 属性 。 当 我 们 通过 实例 访问 一 个 属性 时 ， 它 首 


(9 
先 会 尝试 在 实例 属性 中 人 查找， 如 果 找 不 到 ， 则 会 到 类 属性 中 查找 。 








可 以 看 到 实例 my_instance 可 以 访问 类 属性 class_attr。 但 与 读 操作 有 
所 不 同 ， 如 果 通 过 实例 增加 一 个 属性 ， 只 能 改变 此 实例 的 属性 ， 对 类 属 
性 而 言 ， 并 没有 丝 坚 变 化 。 这 从 下 面 的 代码 中 可 以 得 到 印证 。 





y_inst .inst_att h 
_inst dict 
{'inst att hina'} 
MyClass._dict _ 


dict_proxy({'_ dict_ _': <attribute '_ dict_ _' of 'MyClass' objects>， ' 
Ue "Nain '_ weakref_ ': <attribute ' weakref__' 
of 'MyClass' objects>, '_ doc ': None, ' class attr': 1}) 








那么 ， 能 不 能 给 类 增加 一 个 属性 呢 ? 答案 是 ， 能 ， 也 不 能 。 说 能 ， 
征 因为 每 一 个 class 也 是 一 个 对 象 ， 动 态 地 增 减 对 象 的 属性 与 方法 正 是 
Python 这 种 动态 语言 的 特性 ， 目 然 是 文 持 的 。 





>>> MyClass.class_attr2 = 100 
>>> my_instance.class_attr2 
100 





说 不 能 ， 是 因为 在 Python 中 ， 内 置 类 型 和 用 户 定义 的 类 型 是 有 分 别 
的 ， 内 置 类 型 并 不 能 够 随意 地 为 它 增 加 属性 或 方法 。 





>>> str.new attr = 1 
Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 
TypeError: can't set attributes of built-in/extension type 'str' 
>>> setattr(str, 'new_attr', 1) 
Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 
TypeError: can't set attributes of built-in/extension type "Str' 





至 此 ， 我 们 应 当 理 解 了 ， 妆 我 们 通过 “.” 操 作 符 访问 一 个 属性 时 ， 如 
果 访 问 的 是 实例 属性 ， 与 直接 通过 _dict 属性 获取 相应 的 元 素 是 一 样 
的 ; 而 如 果 访 问 的 是 类 属性 ， 则 并 不 相同 :“.” 操 作答 封装 了 对 两 种 不 同 
属性 进行 查找 的 细节 。 











>>> my_instance._ dict_['inst_attr'] 
"china 
>>> my_instance._ dict ['class attr2'] 
Traceback (most recent call last): 

File "<stdin>", line 1, in <module> 
KeyError: 'class attr2"' 





不 过 ， 这 里 要 讲 的 并 不 止 于 此 ,“.? 操 作 符 封装 了 对 实例 属性 和 类 属 
0 
儿 制 。 








SA Ms ‘= dio Tinst attre 
! 

c 

>>> Melass, stattr 

"chi 





我 们 已 经 知道 访问 类 属性 时 ， 通 过 _dict_ 访问 和 使 用 “.” 操 作 符 访 
问 是 一 样 的 ， 但 如 果 是 方法 ， 却 又 不 是 如 此 了 。 





>>> class MyClass(object ) : 
def my_method(self): 
t "my_method ' 


>>> MyClass._ dict_['my_method'] 
i We ho at Ox 102773aa0> 


人 
色 6 
3 
sa 


i Cla thod 
no nd me End Ca .my_method> 





甚至 它们 的 类 型 都 不 一 样 ! 





>>> type(MyClass .my_method) 
<type 'instancemethod'> 

Ws EYPe tye ass dict ['my_method']) 
type 





这 其 中 作怪 的 就 是 描述 待 了 。 当 通过 “.” 操 作 符 访问 时 ，Python 的 名 
字 奉 找 并 不 是 之 前 说 的 先 在 实例 属性 中 碍 找 ， 然 后 再 在 类 属性 中 碍 找 那 
么 简单 ， 实 际 上 ， 根 据 通 过 实例 访问 属性 和 根据 类 访问 属性 的 不 同 ， 有 
以 下 两 种 情况 : 


一 种 是 通过 实例 访问 ， 比 如 代码 obj.x， 如 果 x 是 一 个 描述 符 ， 那 么 
__getattribute _ 0 会 返回 type(obj)._ dict_['x']. get (obj,type(obj)) 结 
果 ， 即 : type(obj) 获 取 obj 的 类 型 ，type(obj)， dict [x] 返 回 的 是 一 个 摘 
。 这 里 有 一 个 试探 和 判断 的 过 程 ; 最 后 调用 这 个 描述 符 的 _get_0) 
方 ; 


另 一 种 是 通过 类 访问 的 情况 ， 比 如 代码 cls.x， 则 会 被 
_ getattribute _(0) 转 换 为 cls._dict_[x].，_get (None,cls)。 


至 此 ， 就 能 够 明白 MyClass.，_dict_[my_method] 返 回 的 是 function 
而 不 是 instancemethod 了， 原因 是 没有 调用 它 的 get _() 方 法 。 是 否 如 此 
呢 ? 怎么 验证 一 下 ? 我 们 可 以 尝试 手动 调用 __get_ (0)。 





>>> t = 于 .get_ (None，MyCclass) 


Se 

<unbound method MyClass .my_method> 
>>> type 

<type 'instancemethod'> 





看 ， 末 然 是 这 样 ! 这 是 因为 描述 符 协 议 是 一 个 Duck ”Typing 的 协 
议 ， 而 每 一 个 函数 都 有 _ get ”方法 ， 也 就 是 说 其 他 每 一 个 函数 都 是 描 
述 符 。 

描述 符 机 制 有 什么 作用 呢 ? 其 实 它 的 作用 编写 一 般 程序 的 话 还 真 用 


不 上 ， 但 对 于 编写 程序 库 的 读者 来 说 ， 束 非常 有 用 了 。 比 如 大 家 熟悉 的 
己 绑 定 方法 和 未 绑 定 方法 ， 它 是 怎么 来 的 呢 ? 











>>> MyClass.my_method 

<unbound method MyClass.my_method> 

>>> a = MyClass() 

>>> a.my_method 

<bound method MyClass.my_method of < main_ .MyClass object at 0x10277a490>> 





上 面 例子 输出 的 不 同 ， 其 实 来 自 于 对 描述 符 的 _get 0 的 调用 参数 
的 不 同 ， 当 以 obj.x 的 形式 访问 时 ， 调 用 参数 是 _ get_(obj,type(obj)); 而 
以 cls.x 的 形式 访问 时 ， 调 用 参数 是 _get (None,type(o0bj))， 这 可 以 通过 
未 绑 定 方法 的 im_self 属 性 为 None 得 到 印证 。 





>>> print MyClass.my_method.im self 
None 


>>> a.my_method.im self 
<_ main_ .MyClass object at QOx10277a490> 





除 此 之 外 ， 所 有 对 属性 、 方 法 进行 修饰 的 方案 往往 都 用 到 了 质 述 
符 ， 比 如 classmethod、staticmethod 和 Property 等 。 在 这 里 ， 给 出 property 
的 参考 实现 作为 本 市 的 结束 ， 更 深入 的 应 用 可 以 进一步 参考 python 源码 
中 的 其 他 用 法 。 





class Property(object): 
"Emulate PyProperty_Type() in Objects/descrobject.c" 
def _ init_ (self, fget=None, fset=None, fdel=None, doc=None): 
self.fget = fget 
self.fset = fset 


Self.fdel = fdel 
self._ doc = doc 
def _get_ (self, obj, objtype=None): 
if obj is None: 
return self 
if self.fget is None: 
raise AttributeError, "unreadable attribute" 
return self.fget(obj) 
def _ set_ (self, obj, value): 
1f self.fset is. None: 
raise AttributeError, "can't set attribute" 
self.fset(obj, value) 
def _ delete (self, obj): 
if self.fdel is. None: 
raise AttributeError, "can't delete attribute" 
self.fdel(obj) 


一 一 一 = 一 下 


建议 60: 区 别 _getattr_0 和 __getattribute__() 方 法 


_ getattr_0 和 _ getattribute _(0) 都 可 以 用 做 实例 属性 的 获取 和 拦截 
(注意 ， 仅 对 实例 属性 〈instance variable) 有 效 ， 非 类 属性 ) ， 
__getattr _() 适 用 于 未 定义 的 属性 ， 即 该 属性 在 实例 中 以 及 对 应 的 类 的 
基 类 以 及 祖先 类 中 都 不 存在 ， 而 __getattribute _() 对 于 所 有 属性 的 访问 
都 会 调用 该 方法 。 它 们 的 函数 签名 分 别 为 : 














getattr__: getattr__(self,name) 
_ getattribute : _ getattribute (self,name) 











其 中 参数 name 为 属性 的 名 称 。 需 要 注意 的 是 _getattribute__() 仅 应 
用 于 新 式 类 。 


既然 这 两 种 方法 都 用 作 属 性 的 访问 ， 那 么 它们 有 什么 区 别 呢 ? 我们 
来 看 一 个 例子 。 





class A(object): 
def _ init (self,name): 


self.name = name 








’ 
print a.te 
AttributeError: 'A' object has no attribute "test' 








当 访 问 一 个 不 存在 的 实例 属性 的 时 候 就 会 抛 出 AttributeError 异 常 。 
这 个 异常 是 由 内 部 方法 _getattribute_(selfname) 抛 出 的 ， 因 为 
_ getattribute _(0) 会 被 无 条 件 调用 ， 也 就 是 说 只 要 涉及 实例 属性 的 访问 
就 会 调用 该 方法 ， 它 要 么 返回 实际 的 值 ， 要 人 么 抛 出 异常 。Python 的 文档 
http:/docs.python.org/2/reference/datamodel.htmjl#object.getattribute 中 也 提 





到 了 这 一 点 。 那 么 _getattr_0) 会 在 什么 情况 下 调用 呢 ? 我 们 在 上 面 的 
例子 中 添加 __getattr_() 方 法 试 试 。 





def _ getattr 去 全 和 me ) : 
print ("calling 2 人 __:",name) 





再 次 运行 程序 会 发 现 输出 为 : 





attribute 
('calling ._ getattr__:', 'test') 
None 





这 次 程序 没有 抛 出 异常 ， 而 是 调用 了 __getattr_() 方 法 。 实 际 上 
_getattr _ (方法 仅 如 下 情况 下 才 被 调用 : 属性 不 在 实例 的 _ dict 中 ; 
属性 不 在 其 基 类 以 及 祖先 类 的 _ dict_ 中; 触发 AttributeError 异 常 时 

注意， 不 仅仅 征 _getattribute _() 引发 的 ee 彰 ， property 








由 定义 的 getgO 方 法 殷 出 开 0 要 特别 注意 的 
是 当 | 方法 同时 被 定义 的 时 候 ， 要 么 在 bite 中 显 式 调 
用 ， 要 么 触发 AttributeError 异 常 ， 奋 0 永远 不 会 被 调用 。 


ee 中 定义 的 默认 方法 ， 当 
用 户 需 要 宪 盖 这 些 方法 时 有 以 下 几 点 注意 事项 : 


1) 避免 无 穷 递 归 。 当 在 上 述 例子 中 添加 ”getattribute_ 0 方法 后 程 
序 运 行 会 抛 出 RuntimeError 异 常 提 示 “RuntimeError:maximum recursion 
depth exceeded.”。 











def 一 geta attribute (self, attr): 
ry: 


etu En self._ dict [attr] 
except Ke eyErr 
re 和 "default' 





这 是 因为 属性 的 访问 调用 的 是 禾 盖 了 的 _getattribute_ (0) 方法， 而 
该 方法 中 self. dict。_ [attr] 义 要 调用 ”getattribute (self,attr)， 于 是 产生 
了 无 筋 递归 ， 即 使 将 语句 self，_dict_[att] 蔡 换 为 
self. getattribute (self,attr) 和 和 getattr(self,attr) 也 不 能 解决 问题 。 正 确 的 做 





法 是 使 用 super(obj,self). getattribute _(attr)， 因 此 上 面 的 例子 可 以 改 
为 : super(A,self). getattribute (attr) 或 者 

object. getattribute (self,attr)。 无 穷 递 归 是 宪 新 getatt_0O 和 
getattribute _“() 方 法 的 时 候 需要 特别 小 心 。 


2) 访问 未 定义 的 属性 。 如 果 在 _ getattr0 “方法 中 不 抛 出 
AttributeError 异 常 或 者 显 式 返回 一 个 值 ， 则 会 返回 None， 此 时 可 能 会 影 
啊 到 程序 的 实际 运行 预期 。 我 们 来 看 一 个 示例 : 














cla S00 bjec 
dor 3 Te ih nam ne) 


i x= “20 
def getattr _ (self,name): 
Cealhing _ getattr__:",name) 
me == 


Eun self KX “$2 
elif name = Et 


> 
elf.x 
def _ getattribute (se ef attr 
try: 
rn super(A,self). getattribute (attr) 
xcept Ke evErr 
"de fault' 
a = A("attribute") 
print a.name 
print a.z 
if hasattr(a,'t'): 
c= a.t 
print c 


Glae: 
print "instance a has no attribute t" 








用 户 本 来 的 意图 是 : 如 果 t 不 属于 实例 属性 ， 则 打印 出 警告 信息 ， 
否则 给 c 赋 值 。 投 照 用 户 的 理解 本 来 应 该 是 输出 警告 信息 的 ， 可 是 实际 
却 输 出 None。 这 是 因为 在 __getattr_() 方 法 中 没有 抛 出 任何 异常 也 没有 
显 式 返回 一 个 值 ，None 被 作为 默认 值 返 回 并 动态 添加 了 属性 t， 因 此 
hasattr(objecbname) 的 返回 结果 是 True。 如 果 我 们 在 上 述 例子 中 抛 出 异 第 

(raise TypeError(Cunknown attr: + name)) ， 则 一 切 将 如 用 户 期 待 的 那 
样 。 








另外 关于 getattr () 和 getattribute_ 有 以 下 两 点 提醒 : 


1) 窗 盖 了 getattribute _() 方 法 之 后 ， 任 何 属性 的 访问 都 会 调用 用 
. 的 __ getattribute _() 方 法， 性 能 上 会 有 所 损耗 ， 比 使 用 默认 的 方 
法 要 慢 ，。 


2) 履 盖 的 __getattr_() 方 法 如 果 能 够 动态 处 理事 先 未 定义 的 属性 ， 
可 以 更 好 地 实现 数据 隐藏 。 因 为 dir0 通 常 只 显示 正常 的 属性 和 方法 ， 











此 不 会 将 该 属性 列 为 可 用 属性 ， 上 述 例子 中 如 果 动 态 添 加 属性 y， 即 使 
hasattr(a,'y") 的 值 为 Trne，dir(a) 得 到 的 却 是 如 下 输出 : 














Llass Tt. edolattto Tt Lek: so OG ts ormatr et Wetattt. 

'__getattribute__','_ hash_','_ init__','_ module ','_ new '，'_ reduce_ 
educe ex 7 Teopr. "yp Sotattr .YY Sizeofl /str "SUubc 
lasshook_', '_ weakref_ ', 'name', 'x'] 





再 来 思考 一 个 问题 : 我 们 知道 property 也 能 控制 属性 的 访问 ， 如 果 
一 个 类 中 同时 定义 了 property、__getattribute _(0 以 及 __getattr_() 来 对 局 
性 进行 访问 控制 ， 那 么 具体 的 碍 找 顺 序 是 怎样 的 呢 ? 





class A(object ) : 
_C ="test" 
def _ init__(self): 
self.x = None 
@property 
def a(self): 
print "using property to access attribute" 
df self.x is None: 
print "return value" 


roeturm “a 
else: 
print "error occured" 
raise AttributeError 
@a.setter 


def a(self,value): 
self.x = value 
def _ getattr_ (self, name): 
print "using _ getattr _ _ to access attribute" 
print('attribute name: ', name) 
returm hb’ 
def _ getattribute (self, name): 
print "using _ getattribute _ to access attribute" 
return object. getattribute (self,name) 
al = A() 
print al.a 
print "------------------ 下 
al.a = 1 
Drint> a 
print "------------------ 





上 述 程序 的 输出 如 下 : 





using _ getattribute _ to access attribute 
using property to access attribute 

using _ getattribute _ to access attribute 
return value 


using _ getattribute _ to access attribute 
using property to access attribute 

using _ getattribute _ to access attribute 
error occured 

using _ getattr__ to access attribute 
('attribute name: ', 'a') 


当 实 例 化 al 时 由 于 其 默认 的 属性 xz 为 None， 当 我 们 访问 al.a 时 ， 最 
先 搜索 的 是 __getattribute__() 方 法 ， 由 于 a 是 一 个 property 对 象 ， 并 不 存在 
于 al 的 dict 中 ， 因 此 并 不 能 返回 该 方法 ， 此 时 会 搜索 property 中 定义 的 
get() 方 法 ， 所 以 返回 的 结果 是 a。 当 用 property 中 的 set0) 方 法 对 x 进 行 修改 
并 再 次 访问 property 的 get() 方 法 时 会 抛 出 异常 ， 这 种 情况 下 会 触发 对 
__getattr_() 方 法 的 调用 并 返回 结果 b。 程 序 最 后 访问 类 变量 输出 test 是 为 
了 说 明 对 类 变量 的 访问 不 会 涉及 _ getattribute_() 和 ”getattr_ 0 〇 方法。 


Os 


getattribute _ (总 会 被 调用 ， 而 _ getattr_0 只 有 在 
_ getattribute_(0 中 引发 异常 的 情况 下 才 会 被 调用 。 





建议 61: 使 用 更 为 安全 的 property 


property 是 用 来 实现 属性 可 管理 性 的 built-in 数 据 类 型 〈 注 意 : 很 多 
地 方 将 property 称 为 函数 ， 我 个 人 认为 这 是 不 恰当 的 ， 它 实际 上 是 一 种 
实现 了 get _()、__set 0 方法 的 类 ， 用 户 也 可 以 根据 自己 的 需要 定义 
个 性 化 的 property〉， 其 实质 是 一 种 特殊 的 数据 描述 符 (数据 描述 符 : 
如 果 一 个 对 象 同时 定义 了 _ get 0 和 set_0 方 法， 则 称 为 数据 描述 
符 ， 如 果 仅 定义 了 __get_ 0 方法， 则 称 为 非 数 据 描述 符 ) 。 它 和 普通 描 
述 符 的 区 别 在 于 :普通 描述 符 提供 的 是 一 种 较为 低级 的 控制 属性 访问 的 
机 制 ， 而 property 是 它 的 高 级 应 用 ， 它 以 标注 库 的 形式 提供 描述 符 的 实 
现 ， 其 签名 形式 为 : 











property(fget=None, fset=None, fdel=None, doc=None) -> property attribute 





Property 常 见 的 使 用 形式 有 以 下 几 种 。 
1) 第 一 种 形式 如 下 : 





class Some_Class(object): 
def _init (self) 
self._somevalue = 0 
def get_value(self): 
int "calling get method to return value" 
return self._somevalue 
def set_value(self, value): 
print "calling set method to set value" 
self._somevalue = value 
def del attr(self): 
print "calling delete method to delete value" 
del self._somevalue 
x = property(get_value, set_ value, del attr, "I'm the 'x' property.") 
obj = Some_Class() 
obj.x = 10 
print obj.x + 2 
del obj.x 
obj .X 





2) 第 二 种 形式 如 下 : 





class Some_Class(object): 
x=None 


def _ init (self): 
self. x = None 

@property 

def x(self): 


print "calling get method to return value" 
rn self. x 


retu 
@x. er 
def x(self,value): 
print "Calling set method to set value" 
self. x = value 
@x.deleter 
def x(self): 
print "calling delete method to delete value" 
del self. x 





在 了 解 完 property 的 基本 知识 之 后 来 探讨 一 下 这 些 问 题 ， property 到 
底 有 什么 优势 呢 ? 为 什么 要 有 这 个 特性 呢 ? property 的 优势 可 以 简单 地 
概括 为 以 下 几 点 : 


1) 代码 更 简洁 ， 可 读 性 更 强 。 这 条 优势 是 显而易见 的 ， 显 然 
obj.x+=1 比 obj.set_value(obj.get_valueO+T 要 更 简洁 易 读 ， 而 且 对 于 编程 
人 员 来 说 还 少 敲 了 几 次 键盘 。 


2) 更 好 的 管理 属性 的 访问 。property 将 对 属性 的 访问 直接 转换 为 对 
对 应 的 get、set 等 相关 函数 的 调用 ， 属 性 能 够 更 好 地 被 控制 和 管理 ， 常 
见 的 应 用 场景 如 设置 校 验 (如 检查 电子 邮件 地 址 是 否 合法 ) 、 检 测 赋值 
的 范围 (如 某 个 变量 的 赋值 范围 必须 在 0 到 10 之 则 〉 以 及 对 某 个 属性 进 
行 二 次 计算 之 后 再 返回 给 用 户 《 如 将 RGB 形式 表示 的 颜色 转换 为 
#*****+* 形 式 返 回 给 用 户 〉 或 者 计算 某 个 依赖 于 其 他 属性 的 属性 。 来 看 
一 个 使 用 property 控 制 属性 访问 的 例子 。 








pe rnt 
-*- codi utf- 


elf. 
def get_da ate(s en 
self .yea te Mon ey 
def set_da Ge else of; dae _as ing): 
yea nt da ay = date_as_str .Split('-') 
于 下 no + 2008 <= year <=2015 ai 入 0 <= month <= 12 and 0 
= 31): 
ee ve ear should be i 0 L2000; 2915]" 
print nth should ps n [9 2 
pr jt "da ay: es 2 ni [63 于 由 


Self .yea = ye 2 
th month 


S = day 
date =property(get_date, set_date) 





创建 一 个 property 实 际 上 束 是 将 其 属性 的 访问 与 特定 的 函数 关联 起 
来 ， 相 对 于 标准 属性 的 访问 ， 其 工作 原理 如 图 6-5 所 示 。property 的 作用 
相当 于 一 个 分 有 友 器 ， 对 菏 个 属性 的 访问 并 不 直接 操作 具体 的 对 象 ， 而 对 
标准 属性 的 访问 没有 中 间 这 一 层 ， 直 接 访问 存储 属性 的 对 象 。 





property 对 象 





property 
aa 实际 存储 属性 的 对 旬 





沪 问 茶 个 属性 


对 应 的 fget 琢 数 
Se bp 


pS 


3 小 有 ~ 太 Vy 1 fs -| eo 
给 属性 赋值 一 地 应 的 fset 孙 数 


图 6-5 ”property 的 工作 原理 


3) 代码 可 维护 性 更 好 。property 对 属性 进行 再 包装 ， 以 类 似 于 接口 
的 形式 呈现 给 用 户 ， 以 统一 的 语法 来 访问 属性 ， 当 有 具体 实现 需要 改变 的 
时 候 〈 如 改变 茶 个 内 部 变量 ， 或 者 赋值 或 取 值 的 计算 发 生 改变 ) ， 访 问 
的 方式 仍然 可 以 保留 一 致 。 例 如 上 述 例子 中 ， 如 宋 要 更 改 date 的 显示 方 
式 ， 如 “2012 年 4 月 20 日 ?>， 则 只 需要 对 get_value0 做 对 应 的 修改 即 可 ， 外 
部 程序 访问 date 的 方式 并 不 需要 改变 ， 因 此 代码 的 可 维护 性 大 大 提高 。 


4) 控制 属性 访问 权限 ， 提 高 数据 安全 性 。 如 果 用 户 想 设置 菜 个 属 
性 为 只 读 ， 我 们 来 看 看 使 用 property 如 何 满足 这 个 需求 。 


























class PropertyTest(object ) : 
def _ init_ (self): 
elf._Vvar1=20 
@property 
def x(self): 
turn self. vari 


pt = PropertyTest() 
i 站 二 种 





上 面 的 程序 输出 如 下 : 





0 
Traceback (most recent call last): 
", line 11, in <module> 


pt .x=12 
AttributeError: can't set attribute 





在 前 面 的 代码 中 我 们 只 实现 了 get(0 方 法 ， 没 有 实现 set(0) 方 法 。 如 果 
使 用 第 一 种 形式 的 property， 也 只 需要 设置 x=property(get_value) 后 实现 
对 应 的 get0 方 法 即 可 。 


值得 注意 的 是 : 使 用 property 并 不 能 真正 完全 达到 属性 只 读 的 目 
的 ， 正 如 以 双 下 划 线 命令 的 变量 并 不 是 真正 的 私有 变量 一 样 ， 这 些 方法 
只 是 在 直接 修改 属性 这 条 道路 上 增加 了 一 些 障碍 。 如 果 用 户 想 访问 私有 
属性 ， 同 样 能 够 实现 ， 如 上 例 便 可 以 使 用 pt._PropertyTest var1=30 来 修 
改 属 性 。 那 么 究竟 怎样 才能 实现 真正 意义 上 的 只 读 和 私有 变量 呢 ? 本 节 
最 后 会 探讨 这 个 问题 ， 这 里 请 读者 先 思 考 一 下 。 


我 们 在 本 节 开 头 提 到 property 本 质 并 不 是 函数 ， 而 是 特殊 类 ， 既 然 
是 类 的 话 ， 那 么 就 可 以 被 继承 ， 因 此 用 户 便 可 以 根据 自己 的 需要 定义 
property。 来 看 以 下 具体 实现 : 























def update meta (self, other): 
self._ name = other. name 
Self._ doc = other .doc 
self._ dict .update(other._ dict ) 
return self 
class UserProperty (property): 
def _new_(cls, fget=None, fset=None, fdel=None, doc=None): 
if fget is not None: 
def _ get (obj, objtype=None, name=fget._ name_): 
fget = getattr(obj, name) 
print "fget name:"+fget. name _ 
return fget() 
fget = update meta(_ get , fget) 
if fset is not None: 
def _ set (obj, value, name=fset. name  ): 
fset = getattr(obj, name) 
print "fset name:"+fset. name _ 
print "setting value:" +str(value) 
return fset(value) 
fset = update meta(_ set_ , fset) 
if fdel is not None: 
def _ delete (obj, name=fdel._ name_): 
fdel = getattr(obj, name 
print "warning: you are deleting attribute 
using fdel. name_" 








return fdel() 
fdel = update meta(_ delete , fdel) 
return property(fget, fset, fdel, doc) 
class C(object): 
def get(self): 
print 'calling C.getx to get Value' 
return self. x 
def set(self, x): 
print 'calling C.setx to set Value' 
x 


self. ; 
def delete(self) : 
print 'calling C.delx to delete value' 
del, selt: 
x = UserProperty(get, set, delete) 





上 述 例子 中 UserProperty 继 承 自 property， 其 构造 函数 _new__(cls， 
fget=None, fset=None, fdel=None, doc=None) 中 重新 定义 了 fgetO、fsetO 以 


及 fdel0 方 法 以 满足 用 户 特 定 的 需要 ， 最 后 返回 的 对 象 实 际 还 是 property 
的 实例 ， 因 此 用 户 能 够 像 使 用 property 一 样 使 用 UserProperty。 


回 到 前 面 的 问题 : 使 用 property 并 不 能 真正 完全 达到 属性 只 读 的 目 
的 ， 用 户 仍 然 可 以 绕 过 阻碍 来 修改 变量 。 那 么 要 真正 实现 只 读 属 性 怎么 
做 呢 ? 我 们 来 看 一 个 可 行 的 实现 : 








def ro_property(obj, name, value): 
Setattr(obj. class , name, property(lambda obj: obj._dict_[" _" + name])) 
setattr(obj, "_" + name, value) 
class ROClass(object): 
def _ init_ (self, name, available): 
ro_property(self, "name", name) 
self.available = available 
a = ROClass("read only", True) 
print a.name 
a._Article name ="modify" 
Drint a -dict: = 
print ROClass._ dict _ 
print a.name 





上 述 程序 的 输出 如 下 : 








read only 
{'available': True，'_ name': 'read only', '_Article name': 'modify'} 
{'_ module ': ' main ', 'name': <property object at 0x00CA7330>， '_ dict__' 
<attribute '_dict ' of 'ROClass' objects>, '_ weakref ': <attribute ' 
_ weakre 
f_' of 'ROClass' objects>, '_ doc_': None, '_ init_': <function _ init at 0 
x00D617BO>} 
read only 





我 们 发 现 ， 当 用 户 再 试图 用 a Article name 来 修改 变量 _name 的 时 
候 并 没有 达到 目的 ， 而 是 重新 创建 了 新 的 属性 _Article name， 这 样 就 
能 够 很 好 地 保护 可 读 属 性 不 被 修改 ， 以 免 造成 损失 了 。 





建议 62: 掌握 metaclass 

什么 是 元 类 (metaclass) ? 也 许 我 们 对 下 面 这 些 说 法 都 不 陌生 : 

:元 类 是 关于 类 的 类 ， 是 类 的 模板 。 

:元 类 是 用 来 控制 如 何 创 建 类 的 ， 正 如 类 是 创建 对 象 的 模板 一 样 。 

:元 类 的 实例 为 类 ， 正 如 类 的 实例 为 对 象 。 

这 些 说 法 都 没有 错 ， 在 概念 之 外 我 们 来 进行 一 些 更 深入 的 探讨 : 元 
类 是 如 何 来 控制 类 的 创建 的 ? 用 户 该 如 何 定 义 自己 的 元 类 ? 在 哪些 情况 
下 需要 用 到 元 类 ? 使 用 元 类 可 以 解决 什么 问题 ? 

我 们 知 Python 中 一 切 缘 对 象 ， 类 也 是 对 象 ， 可 以 在 运行 的 时 候 动态 


创建 。 当 使 用 关键 字 class 的 时 候 ，Python 解 释 器 在 执行 的 时 候 就 会 创建 
一 个 对 象 〈 这 里 的 对 象 是 指 类 而 非 类 的 实例 ) 。 
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既然 类 是 对 象 ， 那 么 它 就 有 其 所 属 的 类 型 ， 也 一 定 还 有 什么 东西 能 
够 控制 它 的 生成 。 通 过 type 查 看 会 发 现 UserClass 的 类 型 为 type， 而 其 对 
象 UserClass() 的 类 型 为 类 A。 





>>> type(UserClass) 
<type 'type'> 
>>> type(UserClass()) 
<class ' main .A'> 





同时 我 们 知道 type 还 可 以 这 样 使 用 : 





type( 


父 类 的 元 组 〔 针 对 继承 的 情况 ， 可 以 为 空 ) ， 
包 售 属性 的 字典 (名 称 和 值 ) ) 





例如 : 


人 


>>> A=type('A', (object, ),{'value':2}) 
>>> A.value 

>>> print A 

<class ' main .A'> 

>>> class C(A): 

ga pass 


>>> print C 

<class '_ main .CcC'> 
>>> 

>»3 print Cclass. 
<type 'type'> 





上 例 中 type 通 过 接受 类 的 描述 作为 参数 返回 一 个 对 象 ， 这 个 对 象 可 
以 被 继承 ， 属 性 能 够 被 访问 ， 它 实际 是 一 个 类 ， 其 创建 由 type 控 制 ， 由 
type 所 创建 的 对 象 的 _class ”属性 为 type。type 实 际 上 是 Python 的 一 个 内 
建 元 类 ， 用 来 直接 指导 类 的 生成 。 当 然 ， 除 了 使 用 内 建 元 类 type， 用 户 
也 可 以 通过 继承 type 来 自 定 义 元 类 。 我 们 来 看 一 个 利用 元 类 实现 强制 类 
型 检查 的 例子 。 








class TypeSetter(object ) : 
def _ init (self,fieldtype): 
print "set attribute type",fieldtype 
self.fieldtype = fieldtype 
def is_valid(self,value): 
return isinstance(value, self.fieldtype) 
class TypeCcheckMeta(type ) : 
def _new_ (cls,name,bases,dict): 
print '----------------------------------- 
print "Allocating memory for class", name 
print name 
print bases 
print dict 
return super(TypeCheckMeta, cls)._ new _ (cls,name,bases,dict) 
def _ init__(cls,name,bases,dict): 
cls. fields = {} 
for key,value in dict.items(): 
if isinstance(value,TypeSetter): 
cls._fields[key] = value 
def sayHi(cls): 
nt 





TypeSetter 用 来 设置 属性 的 类 型 ，TypeCheckMeta 为 用 户 自 定义 的 元 


类 ， 禾 诲 了 type 元 类 中 的 _new_ 0 方法 和 _init_ 0 方法。 虽然 也 可 以 直 
接 使 用 TypeCheckMeta(name,bases,dict) 这 种 方式 来 创建 类 ， 但 更 为 常见 
的 是 在 需要 被 生成 的 类 中 设置 “metaclass 属性， 两 种 用 法 是 等 价 的 。 





class TypeCheck(object ) : 
_ metaclass = TypeCcheckMeta 
def _ setattr__(self,key,value): 
print "set attribute value" 
if key in self._fields: 
if not self. fields[key].is_valid(value) : 
raise TypeError('Invalid type for field') 
super(TypeCheck, self)._ setattr__(key,value) 
class MetaTest (TypeCheck): 
name = TypeSetter(str) 
num = TypeSetter(int) 
mt = MetaTest() 
mt.name = "apple" 
mt.num = "test" 








当 类 中 设置 了 _metaclass 属性 的 时 候 ， 所 有 继承 目 该 类 的 子 类 都 
将 使 用 所 设置 的 元 类 来 指导 类 的 生成 ， 因 此 上 述 程序 的 输出 如 下 : 











Allocating memory for class TypeCheck 


TypeCheck 
(<type 'object'>,) 
{'_ module ':'_ main ',' metaclass ':<class ' main .TypeCheckMeta'>, '_ 





_setattr__': <function _ setattr at 0x00D61830>} 
set attribute type <type 'str'> 

set attribute type <type 'int'> 
Allocating memory for class MetaTest 

MetaTest 

(<class ' main .TypeCheck'>,) 

{'_ module _':'__main, num' <_ main__ .TypeSetter object at 90x00D67E70>，'n 
ame': <_main__ .TypeSetter object at 90x90D67E50>} 
set attribute Value 

set attribute Value 
Traceback (most recent call last): 

File "metatest. py", line 38, in <module> 

mt. num = "test" 

File "metatest.py", line 28, in _ setattr_ _ 

raise TypeError( Invalid type for field') 

TypeError: Invalid type for field 








实际 上 ， 在 新 式 类 中 当 一 个 类 未 设置 “metaclass ”属性 的 时 候 ， 
将 使 用 默认 的 type 元 类 来 生成 类 。 而 当 该 属性 被 设置 时 查找 规则 如 下 : 


1) 如 果 存 在 dict['” metaclass_']， 则 使 用 对 应 的 值 来 构建 类 ; 人 否则 
使 用 其 父 类 dict['” metaclass _'] 中 所 指定 的 元 类 来 构建 类 ， 当 父 类 中 也 
不 存在 指定 的 metaclass 的 情形 下 使 用 默认 元 类 type。 


2) 对 于 古典 类 ， 条 件 1 不 满足 的 情况 下 ， 如 果 存 在 全 局 变量 
_metaclass_， 则 使 用 该 变量 所 对 应 的 元 类 来 构建 类 ; 人 否则 使 用 














types.ClassType。 


读者 可 以 通过 将 上 述 例子 中 _metaclass”=TypeCheckMeta 设 置 为 模 
块 级 别 或 者 将 TypeCheck 改 为 古典 类 来 验证 上 述 查 找 规则 。 


需要 额外 提醒 的 是 ， 元 类 中 所 定义 的 方法 为 其 所 创建 的 类 的 类 方 
法 ， 并 不 属于 该 类 的 对 象 。 因 此 上 例 中 mt.sayHi0 会 抛 出 AttributeError: 
'MetaTest object has no attribute 'sayHi' 错 误 ， 而 调用 该 方法 的 正确 途径 为 
MetaTest.sayHi()。 


那么 在 什么 情况 下 会 用 到 元 类 呢 ? 有 人 句 话 是 这 么 说 的 : 当 你 面临 一 
et 候 ， 往 往 会 有 其 他 的 更 为 简单 的 解 
决 方案 。 











Python 界 的 领袖 Tim ” Peters 曾 这 样 说 过 : “元 类 就 是 深度 的 魔法 ， 
999% 的 用 户 应 该 根本 不 必 为 此 操心 。 如 果 你 想 搞 清楚 究竟 是 否 需要 用 到 
元 类 ， 那 么 你 就 不 需要 它 。 那 些 实际 用 到 元 类 的 人 都 非常 清楚 地 知道 他 
们 雷 要 做 什么 ， 而 且 根 本 不 需要 解释 为 什么 要 用 元 类 。” 


我 们 来 看 几 个 使 用 元 类 的 场景 。 
1) 利用 元 类 来 实现 单 例 模 式 。 














class Singleton(type): 
def _ init__(cls,name,bases,dic): 
super(Singleton,cl1ls). init (name,bases,dic) 
cls.instance = None 
def _call (cls,*args,**kwargs): 
if cls.instance is None: 
print "creating a new instance" 
cls.instance = Super(Singleton,cls). call _ 
(*args, **kwargs) 
BlSe: 
print "warning:only allowed to create one 
instance,minstance already exists!" 
return cls.instance 
class MySingleton(object): 
_ metaclass = Singleton 





2) 第 二 个 例子 来 源 于 Python 的 标准 库 string.Template.string， 它 提供 
简单 的 字符 串 蔡 换 功 能 。 和 常见 的 使 用 例子 如 下 : 





Template('$name $age').substitute({'name':'admin'}, age=26) 





该 标准 库 的 源 代 码 中 就 用 到 了 元 类 ，Template 的 元 类 为 
_TemplateMetaclass。_TemplateMetaclass 的 _init 0 方法 通过 查找 属性 
(pattern、delimiter 和 idpattern〉 并 将 其 构建 为 一 个 编译 好 的 正则 表达 式 
存放 在 pattern 属 性 中 。 人 户 如 果 需 要 自 定 义 分 隔 符 〈delimiter) 可 以 通 
过 继承 Template 并 和 窗 新 它 的 类 属性 delimiter 玉 实现 。string.Template 的 部 
分 源 代码 如 下 : 











class Template: 
'"A string class for supporting $-substitutions.""" 
_ metaclass = _TemplateMetaclass 
$1! 


idpattern = r'[_a-z][_a-z0-9]*" 
def _ init_ (self, template): 
self.template = template 
class _TemplateMetaclass(type): 
pattern = r""" 
%(delim)s(?: 


(?P<escaped>%(delim)s) | # Escape sequence of two delimiters 
(?P<named>%(id)s) | # delimiter and a Python Identifier 
{(?P<braced>%(id)s)} | # delimiter and a braced Identifier 
(?P<invalid>) # Other ill-formed delimiter exprs 


mm 
def _ init_ (cls, name, bases, dct): 
super( —TemplateMetaclass, cls)._init (name, bases, dct) 
if 'pattern' in dct: 
patternes = cls.pattern 
else 
pattern = = _TemplateMetaclass.pattern % { 
'delim' : _re.escape(cls.delimiter), 
dt : cls.idpattern, 


} 
cls.pattern = _re.compile(pattern, _re.IGNORECASE | _re.VERBOSE) 








另外 在 Django ORM、AOP 编 程 中 也 有 大 量 使 用 元 类 的 情形 。 最 后 
来 谈 谈 关于 元 类 需要 注意 的 几 点 : 


1) 区 别 类 方法 与 元 方法 (定义 在 元 类 中 的 方法 ) 。 我 们 先 来 看 一 
个 例子 : Meta 和 SubMeta 都 为 元 类 ， 其 中 SubMeta 继 承 白 Meta 因此 f1、 
f2 都 为 元 方法 ， 而 Test 为 普通 类 ， 其 元 类 设置 为 SubMeta，f3 为 类 方法 。 











>>> class Ma HYP: 
def fl1(cls) : 
print TS 


>>> class SubMeta(Meta): 
def f2(cls) : 
print This 十 S 2 人 


>>> 
>>> class Test(object): 
metaclass = SubMeta 
@classmethod 
def f3(cls) : 
print " I am f3()" 


>>> t= Test() 

>>> SubMeta.f1(Test) 
This is f1( 

>>> Meta.f1(Test) 
This is fl() 


>>> Test.fl() 
This: ds 得 舍 
>>> SubMeta.f2(Test) 
This is f2() 
>>> Test.f2() 
This is f2() 
bt 
Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 
AttributeError: 'Test' object has no attribute 'f2' 
>>> Test.f3() 
I am f3() 
2 
I am f3() 
>>> 





上 面 的 例子 说 明 ， 元 方法 可 以 从 元 类 或 者 类 中 调用 ， 而 不 能 从 类 的 
实例 中 调用 ; 但 类 方法 可 以 从 类 中 调用 ， 也 可 以 从 类 的 实例 中 调用 。 


2) 多 继承 主要 严格 限制 ， 否 则 会 产生 冲突 。 





>>> class M1(type): 
SA def _new_ (meta，name，bases，atts) : 
print "M1 called for " + name 
return super(M1, meta)._ new_ (meta, name, bases, atts) 


>>> class C1(object): 
5 _ metaclass = M1 


M1 called for C1 
>>> 
>>> class Sub1(C1) :pass 


M1 called for Sub1 
>>> class M2(type): 
def _new (meta, name, bases, atts): 
print "M2 called for " + name 
return super(M2, meta)._ new (meta, name, bases, atts) 


>>> class C2(object): 
we _ metaclass = M2 


M2 called for C2 
Sy> OLASS SUb2tC4, G2) 
pass 


M1 called for Sub2 
Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 
File "<stdin>", line 4, in _ new _ 
TypeError: Error when calling the metaclass bases 
metaclass conflict: the metaclass of a derived class must be a (non-strict) 
subclass of the metaclasses of all its bases 





上 面 的 例子 中 当 Sub2 同 时 继承 自 元 类 C1 和 C2 的 时 候 会 抛 出 异常 ， 
这 是 因为 Python 解 释 器 并 不 知道 C1 和 C2 是 否 兼 容 ， 因 此 会 发 出 冲突 警 
告 。 解 决 冲突 的 办 法 是 重新 定义 一 个 派生 自 M1 和 M2 的 元 类 ， 并 在 C3 中 
将 其 _metaclass “属性 设置 为 该 派生 类 。 





>>> class M3(M1, M2): 
人 def _new_ (meta, name, bases, atts): 
print "M3 called for " + name 
return super(M3, meta). new_ (meta, name, bases, atts) 


Sm LASS Cat G2): 


Os 


元 类 用 来 指导 类 的 生成 ， 元 方法 可 以 从 元 类 或 者 类 中 调用 ， 不 
a 而 类 方法 既 可 以 从 类 中 调用 也 可 以 从 类 的 实 
列 中 调用 。 


建议 63: 熟悉 Python 对 象 协议 


因为 Python 是 一 门 动态 语言 ，Duck Typing 的 概念 表 布 其 中 ， 所 以 其 
中 的 Concept 并 不 以 类 型 的 约束 为 载体 ， 而 另外 使 用 称 为 协议 的 概念 。 
所 谓 协议 ， 类 似 你 讲 英语 ， 我 也 讲 英 语 ， 我 们 就 可 以 交流 ;在 Python 中 
就 是 我 需要 调用 你 某 个 方法 ， 你 正好 就 有 这 个 方法 。 比 如 在 字符 串 格式 
化 中 ， 如 果 有 占 位 符 %s， 那 么 按照 字符 串 转 换 的 协议 ，Python 会 去 自动 
地 调用 相应 对 象 的 _ str_0 方 法 。 


class Object(object): 
de st 一 (Se 
Tp DE called _ str 
super (Object, el) tr 一 人 


> 0 = Obje ch 
» print "%s 

calle 日 str 
ain .Object object at QOx10277a5d0> 





这 倒数 第 二 行 就 是 明证 。 除 了 __str_0 外 ， 还 有 其 他 的 方法 ， 比 如 
_ repr ()、_ int 0、 long ()、_ float ()、__nonzero_() 等 ， 统 称 


类 型 转换 协议 。 除 了 类 型 转换 协议 之 外 ， 还 有 许多 其 他 协议 。 


1) 用 以 比较 大 小 的 协议 ， 这 个 协议 依赖 于 _cmp J 与 EC 证 
是 似 ， 当 两 者 相等 时 ， 返 回 0， 当 self<other 时 返回 负 值 ， 
反之 返回 正 值 。 因 为 它 的 这 种 复杂 性 ， 所 以 Python 又 有 _ eq_ (0)、 
_ne_ (0、_ lt 0、_ gt 0 等 方法 来 实现 相等 、 不 等 、 小 于 和 大 于 的 
i 这 也 就 是 Python 对 ==、!=、< 和 > 等 操作 符 的 进行 重 载 的 支撑 机 
| 。 


2) 数值 类 型 相关 的 协议 ， 这 一 类 的 函数 比较 多 ， 如 表 6-2 所 示 。 
表 6-2 Python 的 协议 与 函数 对 应 关系 表 
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基本 上 ， 只 要 实现 了 表 6-2 中 的 几 个 方法 ， 基 本 上 残 能 够 模拟 数值 
类 型 了 。 不 过 还 需要 提 到 一 个 Python 中 特有 的 概念 : 反 运 算 。 别 被 吓 
着 ， 其 实 非常 简单 。 以 加 法 为 例 ，something+other， 调 用 的 是 something 
的 _add ”0 方法 ， 如 果 something 没 有 _add ”0 方法 怎么 办 呢 ? 调 用 
other. add”_ 0 是 不 对 的 ， 这 时 候 Python 有 一 个 反 运 算 的 协议 ， 它 会 去 
查看 other 有 没有 _ radd_ (0) 方 法， 如 果 有 ， 则 以 something 为 参数 调用 
之 。 类 似 _radd_0 的 方法 ， 所 有 的 数值 运算 符 和 位 运算 符 都 是 支持 
的 ， 规 则 也 是 一 律 在 前 面 加 上 前 绥 r 即 可 ， 在 此 不 再 细 表 。 


3) 容器 类 型 协议 。 容 器 的 协议 是 非常 浅显 的 ， 既 然 为 容器 ， 那 么 
必然 要 有 协议 查询 内 含 多 少 对 象 ， 在 Python 中 ， 束 是 要 支持 内 置 函 数 
len()， 通 过 len 0 来 完成 一目了然。 而 _ getitem_()、 

_ setitem_ (0、_ delitem__ 0 则 对 应 谈 、 写 和 删除 ， 也 很 好 理解 。 

_ iter_0 实 现 了 和 迭代 器 协议 ， 而 _ reversed__(0 则 提供 对 内 置 函数 
reversed() 的 文 持 。 容 器 类 型 中 最 有 特色 的 是 对 成 员 关 系 的 判断 符 计 和 not 
in 的 支持 ， 这 个 方法 叫 __contains_()， 只 要 支持 这 个 函数 束 能 够 使 用 in 
和 和 not in 运 算 符 了。 


4) 可 调用 对 象 协议 。 所 谓 可 调用 对 象 ， 即 类 似 函 数 对 象 ， 能 够 让 
类 实例 表现 得 像 函 数 一 样 ， 这 样 束 可 以 让 每 一 个 函数 调用 都 有 所 不 同 。 




















5) 与 可 调用 对 象 差 不 多 的 ， 还 有 一 个 可 哈 希 对 象 ， 它 是 通过 
_hash_() 方 法 来 文 持 hashO 这 个 内 置 函 数 的 ， 这 在 创建 目 己 的 类 型 时 非 
常 有 用 ， 因 为 只 有 文 持 可 哈 希 协议 的 类 型 才能 作为 dict 的 键 类 型 (不 过 
只 要 继承 目 object 的 新 式 类 默认 就 文 持 了 ) 。 


6) 前 面 的 文档 谈 对 描述 符 协 议和 属性 交互 协议 〈 getattr_()、 
_ setattr_ (0、_ delattr0) ， 那 么 剩 下 来 还 值得 一 谈 的 束 是 上 下 文 管理 
器 协议 了 ， 也 就 是 对 with 语 句 的 文 持 ， 这 个 协议 通过 ”enter _0O 和 














_ exit _() 两 个 方法 来 实现 对 资源 的 清理 ， 确 保 资 源 无 论 在 什么 情况 下 都 
会 正常 清理 。 





class Closer: 
i 


通过 with 
语句 和 一 个 close 
方法 来 关闭 一 个 对 象 ' 
def _ inijt self, obj): 
self.obj = obj 
def _enter_ (self) : 
return Self.obj # bound to target 
def exit (self, exception_type, exception val, trace): 
try: 
self .obj.close() 
except AttributeError: # ,obj isn't closable 
print 'Not closable 
return True # exception handled successfully 








对 于 实现 了 这 两 个 方法 的 Closer 类 ， 我 们 可 以 如 下 使 用 它 





>>> from ftplib import FTP 
>>> with Closer(FTP('ftp.somesite.com')) as conn: 
conn.dir() 


>>> conn.dir() 
i 





可 以 看 到 第 二 次 调用 conn.dir(0) 已 经 没有 输出 ， 这 是 因为 这 个 FIP 连 
接 会 话 已 被 关闭 的 缘故 。 与 这 里 Closer 类 似 的 类 在 标准 库 中 己 经 存在 ， 
就 是 contextlib 里 的 closing。 








至 此 ， 常 用 的 对 象 协 议 束 讲 完 了 ， 只 要 活 学 活用 这 些 协议 ， 就 能 够 
写 出 更 为 Pythonic 的 代码 。 不 过 也 要 注意 ， 协议 不 像 C++、Java 等 语言 中 
的 接口 ， 它 更 像 是 声明 ， 没 有 语言 上 的 约束 力 ， 需 要 大 家 共同 遵守 。 





建议 64: 利用 操作 符 重 载 实现 中 绥 语 法 


可 能 你 跟 我 一 样 ， 学 完 各 种 对 象 协议 后 就 跃跃欲试 。 当 年 我 初学 
Python 的 时 候 ， 原 本 最 熟悉 的 编程 语言 是 C++， 所 以 学 会 操作 符 重 载 以 
后 ， 就 拿 来 炫 技 了 。 











>>> class endl(object) :pass 


>>> class Cout(object ) : 
def _ lshift (self, obj): 
if obj is endl: 
print 
return 
print obj, 
return self 
>>> cout = Cout() 
>>> cout << 1 << 2 << endl 
1 2 





如 果 你 像 我 当年 那样 初学 Python， 你 就 会 明白 这 种 模拟 C++ 的 流 输 
出 让 我 感觉 有 多 炫 ! 但 是 现在 我 知道 这 是 一 种 对 特性 的 滥用 ， 不 应 提 
倡 。 不 过 我 在 这 里 重 提 旧 事 的 原因 是 想 要 引出 一 个 非常 棒 的 利用 操作 符 
重 载 实现 更 优雅 的 代码 的 例子 。 


熟悉 Shell 脚 本 编程 朋友 应 该 都 非常 熟悉 “这 个 符号 ， 它 表示 管道 ， 
用 以 连接 两 个 应 用 程序 的 输入 输出 。 比 如 按 字母 表 反 序 遍 历 当 前 目录 的 
文件 与 子 目录 ， 可 以 如 下 使 用 : 

















intern 


Common 





管道 的 处 理 非常 清晰 ， 因 为 它 是 中 级 语法 。 而 我 们 常用 的 Python 是 
前 绥 语 法 的 ， 比 如 类 似 的 Python 代码 应 该 是 sort(lsO,reverse=True)， 明显 
没有 那么 清晰 ， 特 别 是 在 极限 情况 下 。 





sum(select (where(take while(fib(), lambda x: x < 1000000) lambda x: x % 2), lambda x: x * x)) 





像 这 样 的 代码 ， 一 堆 sum、select、where 混 在 一 起 ， 一 眼看 过 去 已 
经 头 大 如 斗 了 。 管 道 符 号 在 Python 中 ， 也 是 或 符号 ， 那 么 有 没有 可 能 利 
用 它 来 简化 代码 呢 ?” 这 个 想法 后 来 由 Julien Palard 开 发 了 一 个 pipe 库 ， 达 
Sn 这 个 pipe 库 的 核心 代码 只 有 几 行 ， 束 是 重 载 了 _ ror_() 方 
J 





class Pipe 
def ini it (self, function): 
_ self.function = function 
def _ror_ (self，other) : 
return self.function(other) 
def _call (self, *args, **kwargs): 
return Pipe(lambda x: self.function(x, *args, **kwargs)) 





这 个 Pipe 类 可 以 当成 函数 的 decorator 来 使 用 。 比 如 在 列表 中 筷 选 数 
据 ， 可 使 用 如 下 实现 : 





@Pipe 
def where(iterable, predi cate): 
return (x for x in iterable if (predicate(x))) 





pipe 库 内 置 了 一 堆 这 样 的 处 理 函 数 ， 上 文 所 述 的 sum、select、where 
等 函数 尽 在 其 中 ， 所 以 蕊 上 就 可 以 拿 来 改造 之 前 的 代码 。 





fib() | take_while(lam a x: x < 1000000) \ 
| where(lambda x: x % 2) \ 
| select(lambda } 
| sum() 








看 ， 现 在 是 不 是 一 眼 束 可 以 看 出 代码 的 音义 了 呢 ? 惑 是 找 出 小 于 
1000000 的 辈 疲 那 旭 数 ， 并 计算 其 中 的 偶数 的 平方 之 和 。 通 过 这 个 例 
子 ， 可 以 看 出 中 绥 语 法 在 这 种 流 式 数据 处 理 上 的 确 是 非常 有 优势 的 。 


pipe 已 经 发 布 到 pypi， 可 以 使 用 pip install pip 命 令 安装 。 安 装 完成 以 
后 可 以 在 Python Shell 中 尝试 一 下 。 








>>> from PIB 3 
wo [ds 2 4, 5] | where(lambda x: x % 2) | tail(2) | select(lambda x: x * x) 
| add 





此 外 ，pipe 和 是 惰性 求 值 的 ， 所 以 我 们 完全 可 以 乔 一 个 无 穷 生成 器 而 
不 用 担心 内 存 被 用 完 。 比 如 : 





>>> def fib(): 
ME a, b=0 
while True: 


yield a 
a .= -a 





: 然后 来 做 一 个 题目 : 计算 小 于 4?000?000 的 辈 波 那 契 数 中 的 偶数 之 
1 属 





>>> euler2 = fib() | ne x: x % 2 == 0) | take while(lambda x: x < 4000000) | add 
>>> assert euler2 == 4613 





可 以 看 到 代码 非常 易 读 ， 就 像 读 目 然 语言 一 样 。 除 了 处 理 数值 很 方 
便 ， 用 它 来 处 理 文 本 也 一 样 简 单 。 看 看 这 个 需求 : 读 取 文件 ， 统 计 文 件 
中 每 个 单词 出 现 的 次 数 ， 然 后 按照 次 数 从 高 到 低 对 单词 排序 。 





from _ future__ import print_function 
from re import split 
from pipe import * 
with open('test_descriptor.py') as f: 
print(f.read() 
Pipe(lambda x:split('/W+', x)) 
Pipe(lambda x:(i for i in x if i.strip())) 
groupby(lambda x:x) 
select(lambda x:(x[90], (x[1] | count))) 
sort(key=lambda x:x[1], reverse=True) 


SS 





看 看 ， 非 常 简单 吧 ? 在 我 这 里 运行 的 结果 如 下 : 





[self’,, 43  C'To00, :Yr Ct"item', 9), "data’, 8 print’, 7}, def 5 和 
ls 5 ry 








('return 2 放 Jeff' 4), ( 4), ( 4), ('jeff 4), ('Kken 4) 

('obj', 4), ('val', 4), ('class', 3), ('lai', 3), ('pan’, 3), ('tmp', 3), 

('Foo', 2), ('ItemDescriptor', 2), ('Wrapper jr 并 让 2) for 2) 
f', 2), ('next', 2 object' 2)， (ES) C90 1) ("8 
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建议 65: 熟悉 Python 的 迭代 器 协议 


其 实 对 于 大 部 分 Python 程序 员 而 言 ， 迭 代 器 的 概念 可 能 并 不 熟悉 。 
但 这 很 正常 ， 与 C++ 等 语言 不 同 ，Python 的 迭代 器 集成 在 语言 之 中 ， 与 
语言 完美 地 无 颖 集成 ， 不 像 C++ 中 那样 需要 专门 去 理解 这 一 个 概念 。 比 
如 ， 要 遍历 一 个 容器 ，Python 代 码 如 下 : 














PO.: VYV 
* YY 
WW 





而 C++ 代 码 如 下 : 





Using namespace std; 
vector<int> myIntVector; 
// 
往 容器 myIntVector 
中 添加 元 素 的 操作 ， 略 
for(vector<int>::iterator = myIntVector.begin(); 
!= myIntVector .end(); 


e 
cout<<*myIntVectorIterator<<" "; 


} 





两 相对 比 ， 可 以 看 到 C++ 的 代码 中 ， 多 了 一 个 vector<int>::iterator 类 
型 ， 它 是 什么 、 有 什么 用 、 什 么 时 候 用 、 怎 么 用 ， 都 是 C++ 程序 员 需 要 
理解 和 掌握 的 内 容 ， 所 以 可 以 说 ， 在 “实现 遍历 容器 ”这 一 事情 上 ， 使 用 
C++ 要 付出 更 多 的 精力 去 学 习 更 多 的 内 容 ， 这 就 是 Python 把 和 迭 代 堪 内 建 
在 语言 之 中 的 好 处 。 


但 是 ， 并 非 所 有 的 时 候 都 能 够 隐藏 细节 ， 特 别 是 在 写 一 本 书 同 读者 
讲述 其 中 的 机 理 的 时 候 。 所 以 在 这 里 ， 首 先 需 要 向 大 家 介绍 一 下 iter() 孙 
数 。iter0 可 以 输入 两 个 实 参 ， 但 为 了 简化 起 见 ， 在 这 里 忽略 第 二 个 可 选 
参数 ， 只 介绍 一 个 参数 的 形式 。iter0 函 数 返 回 一 个 迭代 器 对 象 ， 接 受 的 
参数 是 一 个 实现 了 __iter_(0 〇 方法 的 容 右 或 迭代 占 〈 精 确 来 说 ， 还 文 持 仪 
有 getitem_( 〇 方法 的 容 絮 〉 。 对 于 容器 而 言 ，_ iter (方法 返回 一 个 
友 代 堪 对 象 ， 而 对 友 代 器 而 言 ， 它 的 _iter _“() 方 法 返回 其 目 身 ， 所 以 如 
果 我 们 用 一 个 迭代 器 对 象 直 ， 当 以 它 为 参数 调用 iter(ibD 时 ， 返 回 的 是 目 














>>> it = iter(alist) 
> it2 = iter(it) 


Po 过 三 
>>> assert id(it) == id(it2) 





到 时 此 ， 惑 可 以 跟 大 家 讲 一 下 迭代 器 协议 了 。 前 文 已 经 说 过 ， 上 所 谓 
协议 ， 是 一 种 松散 的 约定 ， 并 没有 相应 的 接口 定义 ， 所 以 把 协议 简单 归 
纳 如 下 : 

1) 实现 _iter_0 方 法， 返回 一 个 迭代 器 。 


2) 实现 next() 方 法 ， 返 回 当 前 的 元 素 ， 并 指向 下 一 个 元 素 的 位 置 ， 
如 果 当 前 位 置 已 无 元 素 ， 则 抛 出 StopIteration 异 和 党。 


可 以 通过 以 下 代码 验证 这 个 协议 











>>> alist = range(2) 
> = Al4 


wi xt( 
9 

>>> it.next() 
1 


>>> it.next() 
Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 


StopIteration 





与 上 例 使 用 iter0) 内 置 函 数 不 同 ， 这 次 的 代码 是 it=alist. iter _()， 可 
见 list 这 一 容器 确实 是 实现 了 连 代 器 协议 中 容器 的 部 分 。 后 续 连 续 3 次 的 
next() 方 法 调用 也 印证 了 协议 的 第 2 条 。 


熟悉 了 和 友 代 需 协 议 ， 那 么 我 们 吉 可 以 使 用 它 来 过 历 所 有 的 容器 ， 仍 
然 以 list 对 象 为 例 。 





>> alist = range(2) 
>>> it = iter(alist) 
>>> while True : 

try: 


print it.next() 
except StopIteration: 
break 


Po... -.. 


可 以 看 到 输出 跟 最 初 使 用 for 循 环 是 一 样 的 ， 对 ， 你 的 灵光 一 内 没有 
错 ， 其 实 for 语 句 就 是 对 获取 容器 的 欠 代 器 、 调 用 友 代 器 的 next() 方 法 以 
及 对 Stoplteration 进 行 处 理 等 流程 进行 封装 的 语法 糖 《〈 类 似 的 语法 糖 还 
有 in/not it 语句 ) 。 


迭代 器 最 大 的 好 处 是 定义 了 统一 的 访问 容 需 《或 集合 ) 的 统一 接 
口 ， 所 以 程序 员 可 以 随时 定义 目 己 的 友 代 器 ， 只 要 实现 了 迭代 露 协议 就 
可 以 。 除 此 之 外 ， 友 代 器 还 有 惰性 求 值 的 特性 ， 筷 仅 可 以 在 迭代 至 当前 
元 素 时 才 计 算 (或 读 取 )〉 该 元 系 的 值 ， 在 此 之 前 可 以 不 存在 ， 在 此 之 后 
可 以 销毁 ， 也 束 是 说 不 需要 在 所 历 之 前 事先 准备 好 整个 迭 代 过 程 中 的 所 
有 元 素 ， 所 以 非 第 适合 吉 历 无 穷 个 元 系 的 集合 (如 斐 波 那 问 数列 ) 或 巨 
大 的 事物 〈 如 文件 ) 。 








class Fib(object): 
def _ init_ (self): 
elf. a =:0 


f. a, self. b = self. b, self. a + Self._b 





这 段 代码 能 够 打印 辈 波 那 外 数 列 的 前 10 项 。 再 来 看 一 下 传统 的 使 用 
容器 存储 整个 数列 的 方 条 。 





>>> def fib(n): 


resu 

ay b= 

while b<n: 
result.append(b) 
ay b=b, a+b 














与 直接 使 用 容器 的 代码 相 比 ， 它 仪 使 用 两 个 成 员 变 量 ， 显 而 易 见 更 
省 内 存 ， 并 在 一 些 应 用 场景 更 省 CPU 计算 资源 ， 所 以 在 编写 代码 中 应 当 
多 多 使 用 迭代 需 协 议 ， 避 免 劣 化 代码 。 对 于 这 一 观点 ， 不 必 怀 疑 ， 从 
Python 2.3 版 本 开始 ，itertools 成 为 了 标准 库 的 一 员 已 经 充分 印证 这 个 观 


Wyo 


itertools 的 目标 是 提供 一 系列 计算 快速 、 内 存 高 效 的 函数 ， 这 些 函 
数 可 以 单独 使 用 ， 也 可 以 进行 组 合 ， 这 个 模块 受到 了 Haskell 等 函数 式 编 
程 语 言 的 启发 ， 所 以 大 量 使 用 itertools 模 块 中 的 函数 的 代码 ， 看 起 来 有 
点 像 函 数 式 编程 语言 写 推 荐 ， 比 如 sum(imap(operator.mul, 
vectorl,vector2)) 能 够 用 来 运行 两 个 向 量 的 对 应 元 素 乘积 之 和 。 


itertools 最 为 人 所 熟知 的 版 本 ， 应 该 算是 zip、map、filter、slice 的 蔡 
代 ，izip (izip_longest)、imap(startmap)、ifilter(ifilterfalse)、islice， 它 们 
与 原来 的 那 几 个 内 置 函 数 有 一 样 的 功能 ， 只 是 返回 的 是 迭代 絮 ( 在 
Python 3 中 ， 新 的 函数 撤 底 珍 换 挤 了 旧 函 数 )〉。 


除了 对 标准 函数 的 替代 ，itertools 还 提供 以 下 几 个 有 用 的 函数 : 
chain() 用 以 同时 连续 地 迭代 多 个 序列 ; compress()、dropwhile() 和 
takewhile() 能 用 以 以 选 序列 元 素 ; tee() 就 像 同 名 的 UNIX 应 用 程序 ， 对 序 
en ; 而 groupby 的 效果 类 似 SQL 中 相同 拼写 的 关键 字 所 带 的 效 








[k for k, g in groupby('AAAABBBCCDAABBB')] -->ABCDAB 
[list(g) for k, g in groupby('AAAABBBCCD')] --> AAAA BBB CC D 


除了 这 些 针 对 有 限 元 素 的 迭代 帮助 函数 之 外 ， 还 有 count()、 
cycle()、repeat() 等 函数 产生 无 穷 序 列 ， 这 3 个 水 数 就 分 别 可 以 产生 算术 
递增 数列 、 无 限 重 复 实 参 序 列 的 序列 和 重复 产生 同一 个 值 的 序列 。 


如 打 以 上 这 些 函 数 让 你 感到 吃惊 ， 那 么 接 下 来 的 4 个 组 合 数 学 的 函 
数 束 会 让 你 更 加 惊讶 了， 如 表 6-3 所 示 。 


表 6-3 ”组合 函 数 以 及 其 意义 








produetl 计算 种 个 序列 的 @ 次 稍 卡 尔 各 


permutations() 产生 全 排列 
combinations) 产生 无 重复 元 素 的 组 合 
combinations with replacement() 产生 有 重复 元 素 的 组 全 


下 面 通过 例子 来 熟悉 一 下 ， 第 一 行 是 代码 ， 第 二 行 是 结果 。 





product('ABCD', repeat=2) 

AA AB AC AD BA BB BC BD CA CB CC CD DA DB DC DD 
permutations('ABCD', 2) 

AB AC AD BA BC BD CA CB CD DA DB DC 
combinations('ABCD', 2) 

AB AC AD BC BD CD 

combinations with_replacement('ABCD', 2) 

AA AB AC AD BB BC BD CC CD DD 

其 中 product() 

可 以 接受 多 个 序列 ， 如 : 

>>> for i in product('ABC', '123', repeat=2): print ''.join(i) 


Ht 








A1A1 
A1A2 
A1A3 
A1B1 
A1B2 
A1B3 


# 
略 去 其 余 输出 
二 一 


建议 66: 熟悉 Python 的 生成 器 


生成 器 ， 顾名思义 ， 就 是 按 一 定 的 算法 生成 一 个 序列 ， 比 如 产生 自 
9 韭 波 那 披 数列 等 。 之 前 讲 迭 代 器 的 时 候 ， 就 讲 过 一 个 生成 波 

契 数列 的 例子 。 那么 迭代 器 也 是 生成 器 ? 其 实 不 然 。 迭代 器 虽然 在 某 
LL :表现 得 像 生成 右 ， 但 它 绝 非 生成 器 ; 反而 是 生成 器 实现 了 这 代 名 
协议 的 ， 可 以 在 一 定 程度 上 看 作 适 代 器 。 再 把 话题 转 回 迭代 器 样式 的 斐 
波 那 契 数 列 实现 ， 熟 悉 Python 的 人 会 觉得 其 实 不 简洁 ， 因 为 还 有 yield 表 
达 式 可 以 简化 它 。 


大 概 是 因为 生成 器 的 用 处 巨大 ， 所 以 Python 中 专门 有 一 个 关键 字 来 
实现 它 ， 就 是 yield。 甚 至 生成 器 的 定义 也 与 这 个 关键 字 有 关 : 如 果 一 个 
函数 ， 使 用 了 yield 语 句 ， 那 么 它 就 是 一 个 生成 器 函数 。 当 调用 生成 恬 函 
数 时 ， 它 返回 一 个 返 代 器 ， 不 过 这 个 欠 代 霹 是 以 生成 器 对 象 的 形式 出 现 
的 。 所 以 现在 我 们 来 重 写 一 下 之 前 的 斐 波 那 契 数列 实现 。 











:和 
erate(fib(10)): 








看 ， 代 码 行 数 是 不 是 减少 了 许多 ? de eh 不 过 
要 掌握 这 个 关键 字 可 不 容易 ， 首 先 来 看 看 fib0 函 数 返 回 的 是 什么 。 








>2> Ff = fbf19) 














可 以 看 到 它 返 回 的 是 一 个 generator 类 型 的 对 象 ， 而 这 个 对 象 带 有 
_iter _() 和 next0 方 法 ， 可 见 的 确 是 一 个 迭代 器 。 但 那些 next()、 
send()、throw()、dlose() 等 方法 是 怎么 回 事 ?要 理解 这 些 方法 ， 需 要 我 
们 重 温 一 下 手册 中 的 例子 。 


> def e Sy va e=None): 
h pri xecu on starts when 'next()' is called for the first time." 


i 
whi. te TB 
和 


= (yie eld value e) 
except Ex xcepti 


Va. 
finally: 
print "Don't forget to clean up when 'close()' is called." 
> gener ator = 人 了 


x ator ne xt() 
区 ecution Sar 证 whe 'next()' is called for the first time. 
1 





至 此 ， 可 以 看 到 每 一 个 生成 器 函数 调用 之 后 ， 它 的 函数 体 并 不 执 
行 ， 而 是 到 第 一 次 调用 next() 的 时 候 才 开始 执行 。 这 一 点 未 免 让 新 手 颇 
为 费解 ， 但 目前 来 看 除了 便 记 住 这 一 点 外 并 无 它 法 。 要 从 根源 上 解决 问 
题 的 话 ， 可 能 需要 约定 生成 器 函数 使 用 力 外 一 个 关键 字 ， 比 如 使 用 
generator 而 不 是 def， 不 然 大 家 总 是 会 往 函 数 方面 去 想 的 。 


当 第 一 次 调用 next0 方 法 时 ， 生 成 器 函数 开始 执行 ， 执行 到 ield 表 
达 式 为 止 。 如 例子 中 的 value=(yield value) 语 句 中 ， 只 是 执行 了 yield 
value 这 个 表达 式 ， 而 赋值 操作 并 未 执行 。 记 住 这 一 点 很 重要 ， 只 有 记 住 
了 这 一 点 ， 才 能 理解 后 续 的 内 容 ， 如 send() 方 法 。 








>>> print generator .next() 
None 








这 个 也 让 人 有 点 困惑 ， 按 代码 应 当 是 返回 1 的 ， 怎 么 返回 None 了 
呢 ? 这 时 候 需 要 注意 的 是 代码 中 的 value=(yield value)，yield 是 一 个 表达 
式 ， 所 以 它 可 以 作为 一 个 表达 式 的 右 值 。 当 第 二 次 调用 next() 时 ，yield 
表达 式 的 值 赋值 给 了 value， 而 yield 表 达 式 的 默认 “返回 值 ”* 就 是 None， 
所 以 后 续 value 的 值 束 是 None。 现 在 再 用 自然 语言 来 描述 一 次 第 二 次 调 
用 nextO 的 过 程 ， 首 先是 value=(yield ”value) 语 句 中 的 赋值 操作 得 到 了 执 
行 ， 即 value 被 赋值 为 None， 然 后 是 while 条 件 判 断 ， 再 次 进入 循环 体 ， 
执行 value=(yield ”value) 语 句 ， 此 时 value 的 值 为 None，yield 出 来 的 各 
None， 那 么 再 次 调用 nextO0 时 返回 None 就 顺理成章 了 ， 因 为 nextO 的 返 
值 就 是 yield 表 达 式 的 右 值 。 





直率 地 说 ，send() 方 法 很 绕 ， 这 不 是 一 个 好 名 字 。 其 实 send0 是 全 功 
能 版 本 的 nextO0， 或 者 说 nextO 是 send0 的 “快捷 方式 ”， 相 当 于 
send(None)。 还 记得 yield 表 人 达 式 有 一 个 “返回 值 ”* 吗 ?send0) 方 法 的 作用 束 
是 控制 这 个 返回 值 ， 使 得 yield 表 达 式 的 “返回 值 ”是 它 的 实 参 。 





>>> generator.throw(TypeError, "spam") 
TypeError('spam',) 





除了 能 yield 表 达 式 的 “返回 值 ? 之 外 ， 也 可 以 让 它 抛 出 异常 ， 这 就 是 
throw( 方 法 的 能 力 。 在 本 例 中 ，yield value 表 达 式 抛 出 一 个 TypeError 寞 
和 常 ， 然 后 被 内 层 的 except 语 名 捕获， 并 赋值 给 value， 因 此 整个 代码 的 执 
行 流 并 没有 离开 while 循 环 块 ， 所 以 进入 了 下 一 次 循环 。 当 再 次 执行 
yield value 时 ， 异 常 对 象 ( 也 就 是 value 的 值 ) 被 返回 到 此 次 throwO 调 用 
中 。 对 于 常规 业务 逻辑 的 代码 来 说 ， 处 理 异常 的 情况 不 会 像 这 个 例子 中 
那样 ， 而 是 对 特定 的 异常 有 很 好 的 处 理 〈( 比 如 将 异常 信息 写 入 日 志 后 优 
雅 地 返回 ) ， 从 而 实现 从 外 部 影响 生成 器 内 部 的 控制 流 。 











() 


>>> generator.close 
Don't forget to clean up when 'close()' is called . 


当 调 用 close() 方 法 时 ，yield 表 达 式 束 抛 出 GeneratorExit 异 常 ， 生 成 
妖 对 象 会 自行 处 理 这 个 异常 。 当 调用 close() 之 后 ， 再 次 调用 next()、 
send0) 会 使 生成 器 对 象 抛 出 StopIteration 异 第 ， 换 言 之 ， 这 个 生成 器 对 象 
己 经 不 可 再 用 。 最 后 值得 一 提 的 是 ， 当 生成 器 对 象 被 GC 回收 时 ， 会 自 
动 调用 close()。 








除了 简化 前 文中 使 用 迭代 器 协议 生成 斐 波 那 契 数列 的 代码 之 外 ， 生 
成 器 还 有 两 个 很 棒 的 用 处 ， 其 中 之 一 是 实现 with 语句 的 上 下 文 管理 需 协 
议 ， 利 用 的 是 调用 生成 器 函数 时 函数 体 并 不 执行 ， 当 第 一 次 调用 next() 
方法 时 才 开 始 执行 ， 并 执行 到 yield 表 达 式 后 中 止 ， 直 到 下 一 次 调用 
next0) 方 法 这 个 特性 ;， 其 二 是 实现 协 程 ， 利 用 的 是 上 文 所 述 的 send()、 
throw()、close() 等 特性 。 在 此 ， 继 续 讲 述 第 一 个 应 用 ， 而 第 二 个 应 用 留 
待 下 一 小 市 讲述 。 


首先 ， 需 要 我 们 回 过 头 来 重 吉 一 下 上 下 文 管理 器 协议 ， 其 实 就 是 
求 类 实现 _enter _0 和 _ exit_ (0) 方 法。 比如 以 下 file 对 象 就 实现 
议 : 








>>> with pb /tmp/xx Xt 7 、 钴 as f: 
了 te(" hel10” con te xt manager . 





但 是 生成 器 对 象 并 没有 这 两 个 方法 ， 所 以 contextlib 提 供 了 
contextmanager 函 数 来 适 配 这 两 种 协议 。 





contextlib import contextmanager 

ge ntextmanager 
def tag (nal ba 

print %s>" % name 
yi 党 证 
pri name 
Sy th of ee 中 
人 pri 


<h1> 


OO 
</hi> 





这 是 来 自 Python 文 档 的 例子 ， 当 进入 with 块 的 时 候 ，tag0) 函 数 块 的 

一 行 执行 ， 并 在 执行 到 第 二 行 的 时 候 中 止 ， 离 开 with 块 的 时 候 ， 执 行 
完成 后 执行 yield 后 面 的 语句 ， 也 束 是 tag() 函 数 块 的 第 三 行 ， 
然后 整个 函数 执行 完毕 。 通 过 contextmanager 对 next()、throw()、close() 
的 封装 ，yield 大 大 简化 了 上 下 文 管理 器 的 编程 复杂 上 度 ， 对 提高 代码 可 维 
护 性 有 着 极 大 的 意义 。 除 了 上 面 这 个 例子 之 外 ，yield 和 contextmanger 也 
0 以 “ 池 ” 模 式 中 对 资源 的 管理 和 回收 ， 具 体 的 实现 留 给 大 家 去 思 











建议 67: 基于 生成 喜 的 协 程 及 greenlet 


在 前 文中 ， 对 生成 器 实现 协 程 卖 了 个 小 关子， 在 这 一 节 ， 让 我 们 来 
揽 开 谜底 。 不 过 在 此 之 前 ， 需 要 先 重 温 一 下 协 程 的 概念 ， 以 及 它 的 意 
> 








协 程 ， 又 称 微 线 程 和 纤 程 等 ， 据 说 源 于 Simula 和 Modula-2 语 言 ， 现 
代 编 程 语言 基本 上 都 支持 这 个 特性 ， 比 如 Lua 和 ruby 都 有 类 似 的 概念 。 
协 程 往往 实现 在 语言 的 运行 时 库 或 虚拟 机 中 ， 操 作 系 统 对 其 存在 一 无 所 
知 ， 所 以 又 被 称 为 用 户 空 间 线程 或 绿色 线程 。 又 因为 大 部 分 协 程 的 实现 
是 协作 式 而 非 抢 占 式 的 ， 需 要 用 户 自己 去 调度 ， 所 以 通常 无 法 利用 多 
核 ， 但 用 来 执行 协作 式 多 任务 非常 合适 。 用 协 程 来 做 的 东西 ， 用 线程 或 
进程 通常 也 是 一 样 可 以 做 的 ， 但 往往 多 了 许多 加 锁 和 通信 的 操作 。 下 面 
基于 生产 者 消费 者 模型 ， 对 抢占 式 多 线程 编程 实现 和 协 程 编程 实现 进行 
对 比 。 首 先 来 看 使 用 以 下 线程 的 实现 〈 伪 代码 ) : 


























由 以 上 代码 可 以 看 到 ， 线 程 实现 至 少 有 两 点 硬 伤 : 
本 





.消费 者 线程 还 要 通过 sleep 把 CPU 资源 适时 地 “谦让 ”给 生产 者 线程 
使 用 ， 其 中 的 适时 是 多 久 ， 基 本 上 只 能 静态 地 使 用 经 验 值 ， 效 果 往 往 不 
尺 如 人 意 。 


而 使 用 协 程 可 以 比较 好 地 解决 这 个 问题 。 看 以 下 基于 协 程 的 生产 者 
消费 者 模型 实现 〈 伪 代码 ) : 








a 
队列 容器 
var q: ew queue 
// 
生产 者 协 程 
loop 
while q not 11 
create some new ite 
dd the items to q 
yield to consume 
// 
消费 者 协 程 
loop 
while q ot empty 
emove some items from q 


yield to produce 








可 以 从 以 上 代码 看 到 之 前 的 加 锁 和 谦让 CPU 的 硬 伤 不 复 存 在 ， 但 也 
损失 了 利用 多 核 CPU 的 能 力 。 所 以 选择 线程 还 是 协 程 ， 就 要 看 应 用 场合 
Ee 


好 ， 回 到 主题 ， 协 程 这 东西 关 Python 的 生成 器 什么 事 ? 如 果 你 仔细 
看 上 面 的 伪 代 码 ， 应 该 留意 到 其 中 出 现 了 两 个 yield! 是 的 ， 因 为 yield 能 
够 中 止 当前 代码 的 执行 ， 相 当 于 “让 出 ”CPU 资源 ， 跟 协 程 的 “协作 式 ” 理 
念 不 谍 而 合 ， 所 以 能 够 实现 协 程 。 








def consumer(): 
while True: 
line = yield 
print line.upper() 
def producter(): 
with open('/var/log/apache2/error_log', 'r') as f: 
for i, line in enumerate(f): 
yield line 
print 'processed line %d' % i 
c = consumer() 
c.next() 
for line in producter(): 
c.send(line) 





依照 上 文 的 理念 ， 编 写 了 这 些 代 码 ， 可 以 看 到 consumer0) 古 一 个 生 
成 絮 阔 数 ， 它 接收 yield 表 达 式 的 返回 值 ， 转 换 为 全 大 写 ， 并 输出 到 标准 
输出 ， 然 后 再 次 执行 yield 把 CPU 交 给 主 程序 。 它 的 执行 结果 如 下 根据 
内 容 会 有 点 不 同 ) : 





[THU OCT 31 17:49:08 2013] [WARN] INIT: SESSION CACHE IS NOT CONFIGURED [HINT 
SSLSESSIONCACHE] 

processed line 0 

HTTPD: COULD NOT RELIABLY DETERMINE THE SERVER'S FULLY QUALIFIED DOMAIN NAME, 
RU EU PG PRO.LOCAL FOR SERVERNAME 


sed line 1 
人 80 四 31 1 49:08 0948] [NOTICE] DIGEST: GENERATING SECRET FOR DIGEST 
uD 
processed 1i 4 
[THU BCT 34 和 49:08 2013] [NOTICE] DIGEST: DONE 
processed 1i 3 


人 








可 以 从 输出 中 看 到 ， 每 输出 一 行 大 写 的 文字 后 都 有 一 行 来 自主 程序 
的 处 理 信息 ， 绝 不 会 像 抢占 式 的 多 线程 程序 那样 “ 乱 序 ”， 这 就 是 协 程 
的 “ 协 ? 字 之 由 来 。Python ”2.x 版 本 的 生成 器 无 法 实现 所 有 的 协 程 特性 ， 
是 因为 缺乏 对 协 程 之 间 复 淋 关 系 的 支持 。 比 如 一 个 yield 协 程 依赖 为 一 个 
yield 协 程 ， 且 需要 由 最 外 层 往 最 内 层 进行 传 值 的 时 候 ， 就 没有 解决 办 
法 。 下 面 就 是 一 个 例子 ， 为 班级 编写 一 个 程序 ， 计 算 每 一 个 学 生 的 各 科 
总 分 ， 并 计算 班级 总 分 。 先 尝试 编写 以 下 函数 : 

















>>> def a umu 和 
家 这 i 


while 
Ty = (yield tally) 





考虑 到 不 同 的 班级 有 不 同 数量 的 科目 ， 不 同 的 班级 有 不 同 数量 的 学 
生 ， 所 以 编写 一 个 生成 器 进行 计算 ， 它 能 根据 接收 到 的 数值 进行 计算 ， 
无 须 预 先知 道 数 量 。 现 在 想象 一 下 你 拿 到 了 学 生 的 各 科 成 绩 表 ， 可 以 想 
象 出 它 是 一 个 二 维 表 ， 那 么 代码 大 概 如 下 : 





>>> 1 = [] 

>>> for s in students: 
t= 
a = accumulate () 
a.next() 


Tor CB Ens 
t = a.send(c) 
1.append(t) 


t=0 
>>> a = accumulate () 
>>> a.next() 
“人 让 
t = a.send(s) 


>>> 下 
325 





可 以 看 到 无 端 多 出 来 的 对 t 和 a 的 初始 化 操作 非常 刺眼 ， 不 过 代码 总 
算是 可 以 正常 工作 。 如 果 你 尝试 想 把 它 封装 成 一 个 用 以 计算 一 个 学 生 总 





分 的 函数 ， 会 更 加 别扭 〈 想 象 一 下 在 accumulate(0 中 调用 其 上 自身， 递归 
生成 器 ? ) 。 这 个 问题 直到 Python 3.3 增 加 了 yield from 表 达 式 以 后 才 得 
以 解决 ， 通 过 yield ”from， 外 层 的 生成 器 在 接收 到 send() 或 throw() 调 用 
时 ， 能 够 把 实 参 直接 传 入 内 层 生 成 费 。 应 用 到 本 例 当中 ， 束 不 需要 定义 
临时 容器 ] 来 保存 每 一 个 学 生 的 成 绩 ， 代 码 复杂 性 下 降 许 多 。 下 面 是 假 
定 accumulate 使 用 了 yield from 后 的 代码 : 





看 这 个 内 套 循环 的 代码 是 不 是 简单 了 许多 ? 回 到 协 程 这 个 主题 ， 
为 Python ”2.X 版 本 对 协 程 的 文 持 有 限 ， 而 协 程 又 是 非常 有 用 的 特性 ， 所 
以 很 多 Pythonista 就 开始 寻求 语言 之 外 的 解决 方案 ， 并 编写 了 一 系列 的 
程序 库 ， 其 中 最 受 欢 迎 的 莫 过 于 greenlet。 


greenlet 是 一 个 C 语 言 编写 的 程序 库 ， 它 与 yield 关 键 字 没有 和 密切 的 关 
系 。greenlet 这 个 库 里 最 为 关键 的 一 个 类 型 就 是 PyGreenlet 对 象 ， 它 是 一 
个 C 结 构 体 ， 每 一 个 PyGreenlet 都 可 以 看 到 一 个 调用 栈 ， 从 它 的 入 口 函数 
开始 ， 所 有 的 代码 都 在 这 个 调用 栈 上 运行 。 它 能 够 随时 记录 代码 运行 现 
场 ， 并 随时 中 止 ， 以 及 恢复 。 看 到 这 里 ， 可 以 发 现 它 跟 yield 所 能 够 做 到 
的 相似 ， 但 更 好 的 是 它 提供 从 一 个 PyGreenlet 切 换 到 男 一 个 PyGreenlet 的 
a 最 后 看 一 下 来 自 它 帮助 文件 的 一 个 例子 ， 以 便 对 它 有 个 直观 的 印 














最 后 一 行 跳 到 test1， 输 出 12， 跳 到 test2， 输 出 56， 跳 回 test1， 输 出 
34; 然后 test1 执 行 完 ，gr1 就 死 了 。 然 后 ， 最 初 的 grl.switchO 调 用 返回 ， 


所 以 永远 也 不 会 输出 78。 


协 程 虽然 不 能 充分 利用 多 核 ， 但 它 跟 异 步 JO 结 合 起 来 以 后 编写 IO 
密集 型 应 用 非常 容易 ， 能 够 在 同步 的 代码 表面 下 实现 异步 的 执行 ， 其 中 
的 代表 当 属 将 greenlet 与 libevent/ibev 结 合 起 来 的 gevent 程 序 库 ， 它 是 当 
下 最 受 欢 迎 的 Python 网 络 编程 库 。 最 后 ， 以 使 用 gevent 并 发 查询 DNS 的 
人 
VE o 




















>> import gevent 
> from gevent import Socket 
> Urls = ['www.google.com'， 'www.example.com', 'www.python.org'] 
= [gevent.spawn(socket.gethostbyname, url) for url in urls] 
> gevent.joinall(jobs, timeout=2) 
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建议 68: 理解 GIL 的 局 限 性 


在 Python 多 线程 编程 中 ， 你 有 没有 遇 到 过 这 种 问题 : 多 线程 Python 
程序 运行 的 速度 比 只 有 一 个 线程 的 时 候 还 要 慢 ? 除了 程序 本 身 的 并 行 性 
之 外 ， 很 大 程度 上 与 GIL 有 关 。GIL 在 Python 中 是 一 个 很 有 争议 的 话题 ， 
由 于 它 的 存在 ， 多 线程 编程 在 Python 中 似乎 并 不 理想 ， 为 什么 这 么 说 
呢 ? 先 来 了 解 一 下 GIL。GIL 锐 称 为 为 全 局 解释 占 锁 (Global Interpreter 
Lock) ， 是 Python 虚拟 机 上 用 作 互 斥 线程 的 一 种 机 制 ， 它 的 作用 是 保证 
任何 情况 下 虚拟 机 中 只 会 有 一 个 线程 被 运行 ， 而 其 他 线程 都 处 于 等 待 
GIL 锁 被 释放 的 状态 。 对 于 有 LO 操作 的 多 线程 ， 其 线程 执行 状态 如 图 6- 
6 所 示 。 不 管 是 在 单 核 系统 还 是 多 核 系统 中 ， 始 终 只 有 一 个 获得 了 GIL 锁 
的 线程 在 运行 ， 每 次 遇 到 IO 操作 便 会 进行 GIL 锁 的 释放 。 


但 如 末 是 纯 计 算 的 程序 ， 没 有 IO 操作 ， 解 释 器 则 会 根据 
sys.setcheckinterval 的 设置 来 自动 进行 线程 间 的 切换 ， 默 认 情 况 下 每 陋 
100 个 时 钟 〈 注 : 这 里 的 时 钟 指 的 是 Python 的 内 部 时 钟 ， 对 应 于 解释 器 
6-7 用 不。 




















LO LO LO LO LO 


线程 1 --- 


线程 一 一 -| 一 +-------|----- 





4 A 
获取 GIL 释放 GIL 获取 GIL | 释放 GIL 








图 6-6 ”Python 虚拟 机 中 IO 操作 中 GIL 的 变换 过 程 





获取 GIL 释放 GIL 









无 10 操作 线程 














100 个 时 钟 吐 哄 | | 100 个 时 钟 100 个 时 钟 
啊 暴 ”一 咬 哄 


图 6-7 无 VO 操作 时 GIL 的 变换 过 程 


在 单 核 CPU 中 ，GIL 对 多 线程 的 执行 并 没有 太 大 影响 ， 因 为 单 核 上 
的 多 线程 本 质 上 惑 是 顺序 执行 的 。 但 对 于 多 核 CPU， 多 线程 并 不 能 真正 
发 挥 优势 带 来 效率 上 明显 的 提升 ， 甚 至 在 频 楷 IO 操作 的 情况 下 由 于 存 
在 需要 多 次 释放 和 申请 GIL 的 情形 ， 效 率 反 而 会 下 降 。 那 么 ， 有 人 不 蔡 
会 问 : Python 解释 器 中 为 什么 要 引入 GIL 呢 ? 来 思考 这 样 一 个 情形 : 我 
们 知道 Python 中 对 象 的 管理 与 引用 计数 需 密 切 相 关 ， 当 计数 器 变 为 0 的 
时 候 ， 该 对 象 便 会 被 垃圾 回收 器 回收 。 当 撤销 对 一 个 对 象 的 引用 时 ， 
Python 解释 器 对 对 象 以 及 其 计数 需 的 管理 分 为 以 下 两 步 : 


1) 使 引用 计数 值 减 1。 
2) 判断 该 计数 值 是 否 为 0， 如 果 为 0， 则 销毁 该 对 象 。 


假设 线程 A 和 B 同 时 引用 同一 个 对 象 obj， 这 时 obj 的 引用 计数 值 为 
2。 如 宋 现 在 线程 A 打 算 撤销 对 obj 的 引用 。 当 执行 完 第 一 步 的 时 候 ， 由 
于 存在 多 线程 调度 机 制 ，A 恰 好 在 这 个 关键 点 和 被 挂 起 ， 而 B 进 入 执行 状 
态 ， 如 图 6-8 所 示 。 但 不 笠 的 是 B 也 同样 做 了 撤销 对 obj 的 引用 的 动作 ， 
并 顺利 完成 了 所 有 两 个 步骤 ， 这 个 时 候 由 于 obj 的 引用 计数 器 为 0， 因 此 
对 象 被 销毁 ， 内 存 被 释放 。 但 如 打 此 时 A 再 次 被 唤醒 去 执行 第 二 步 操作 
的 时 候 会 及 现 已 经 面目 全 非 ， 则 其 操作 结果 完全 未 知 。 











Obj.ref num -- #B 挂 起 
# 线 程 A 执 行 ，obj.ref num=1 obj.ref num--# 线 程 B 被 唤醒 进 入 执行 状态 
#A 挂 起 If obj.ref num==0:# 此 时 条 件 成 立 


destory objtobj 被 销毁 


= mw 和 _ se F sn ~ [其 本 :FE a 
[fobj.ref num==0:# 线 程 A 恢 复 ， 进 入 执行 状态 ree memory# 内 存 释 放 


destory obj# 此 时 obj 并 不 存在 ， 执 行 结果 未 知 


Free memory 





图 6-8 无 GILL 存 在 时 线程 的 同步 


鉴于 此 ， 在 Python 解释 器 中 引入 了 GIL， 以 保证 对 虚拟 机 内 部 共 宇 
资源 访问 的 互 矿 性 。GIL 的 引入 确实 使 得 多 线程 不 能 在 多 核 系 统 中 发 挥 
优势 ， 但 它 也 带 来 了 一 些 好 处 : 大 大 简化 了 Python 线程 中 共享 资源 的 管 
理 ， 在 单 核 CPU 上 ， 由 于 其 本 质 是 顺序 执行 的 ， 一 般 情况 下 多 线程 能 够 
获得 较 好 的 性 能 。 此 外 ， 对 于 扩展 的 C 程 序 的 外 部 调用 ， 即 使 其 不 是 线 
程 安全 的 ， 但 由 于 GIL 的 存在 ， 线 程 会 阻 暑 直到 外 部 调用 函数 返回 ， 线 
程 安 全 不 再 是 一 个 问题 。 


多 核 CPU 已 经 成 为 一 个 常见 的 现象 ，GIL 的 局 限 性 限制 了 其 在 多 核 
CPU 上 上 发挥 优势， 因此 对 于 GIL 的 去 留 也 曾 引 发 过 激烈 的 讨论 。Guido 以 
及 Python 的 开发 人 员 都 有 一 个 很 明确 的 解释 ， 那 就 是 去 掉 GIL 并 不 容 
易 。 实 际 上 在 1999 年 ， 针 对 Python1.5，Greg Stein 发 布 了 一 个 补丁 ， 该 
补丁 中 GIL 被 完全 移 除 ， 使 用 高 粒度 的 锁 来 代替 。 然 而 这 种 解决 方案 并 
没有 带 来 理想 的 效果 ， 多 核 多 线程 速度 的 提升 并 没有 随 着 核 数 的 增加 而 
线性 增长 ， 反 而 给 单线 程 程序 的 执行 速度 带 来 了 一 定 的 代价 ， 当 用 单线 
程 执行 时 ， 速 度 大 约 降 低 了 40%。 因 此 ， 这 种 方案 最 终 也 被 放弃 。 在 
Python3.2 中 重新 实现 了 GIL， 其 实现 机 制 主要 集中 在 两 个 方面 : 一 方面 
是 使 用 固定 的 时 间 而 不 是 固定 数量 的 操作 指令 来 进行 线程 的 强制 切换 ; 
另 一 个 方面 是 在 线程 释放 GIL 后 ， 开 始 等 待 ， 直 到 某 个 其 他 线程 获取 
GIL 后 ， 再 开始 去 尝试 获取 GIL， 这 样 虽然 可 以 避免 此 前 获得 GIL 的 线 
程 ， 不 会 立即 再 次 获取 GIL， 但 仍然 无 法 保证 优先 级 高 的 线程 优先 获取 
GIL。 这 种 方式 只 能 解决 部 分 问题 ， 并 未 改变 GIL 的 本 质 ，GIL 本 质 上 的 

















改观 目前 并 没有 非常 明明 的 前 景 。 不 过 也 不 需要 那么 恶 观 ，Python 提 供 
了 其 他 方式 可 以 绕 过 GIL 的 局 限 ， 比 如 使 用 多 进程 multiprocessing 模 块 或 
者 采用 C 语 言 扩 展 的 方式 ， 以 及 通过 ctypes 和 C 动 态 库 来 充分 利用 物理 内 
核 的 计算 能 力 。 





建议 69: 对 象 的 管理 与 垃圾 回收 


通常 来 说 Python 并 不 需要 用 户 自己 来 管理 内 存 ， 它 与 Perll、Ruby 等 
很 多 动态 语言 一 样 具备 垃圾 回收 功能 ， 可 以 自动 管理 内 存 的 分 配 与 回 
收 ， 而 不 需要 编程 人 员 的 介入 。 那 么 这 样 是 不 是 意味 着 用 户 可 以 高 枕 无 
忧 了 呢 ? 我 们 来 看 下 面 一 个 例子 : 

















= nit (Cools}: 
rint "object with id %d was born" %id(self) 





运行 上 述 程序 我 们 会 发 现 ，Python 进 程 的 内 存 消耗 量 一 直 在 持续 增 
长 ， 到 最 后 出 现 内 存 耗 光 的 情况 。 这 是 什么 原因 造成 的 呢 ? 


我 们 先 来 简单 谈 谈 Python 中 内 存 管理 的 方式 : Python 使 用 引用 计数 
器 (Reference counting) 的 方法 来 管理 内 存 中 的 对 象 ， 即 针对 每 一 个 对 
象 维护 一 个 引用 计数 值 来 表示 该 对 象 当 前 有 多 少 个 引用 。 当 其 他 对 象 引 
用 该 对 象 时 ， 其 引用 计数 会 增加 1， 而 删除 一 个 对 当前 对 象 的 引用 ， 其 
引用 计数 会 减 1。 只 有 当 引 用 计数 的 值 为 0 的 时 候 该 对 象 才 会 被 垃圾 收集 
器 回收 ， 因 为 它 表 示 这 个 对 象 不 再 被 其 他 对 象 引 用 ， 是 个 不 可 达 对 象 。 
引用 计数 算法 最 明显 的 缺点 是 无 法 解决 循环 引用 的 问题 ， 即 两 个 对 象 相 
互 引用 。 上 述 代码 中 正 是 由 于 形成 了 A、B 对 象 之 则 的 循环 引用 而 造成 
了 内 存 泄露 的 情况 ， 因 为 两 个 对 象 的 引用 计数 器 都 不 为 0， 访 对象 并 不 
会 被 垃圾 收集 器 回收 ， 而 无 限 循环 导致 一 直 在 申请 内 存 而 没有 释放 ， 所 
以 最 后 出 现 了 内 存 耗 光 的 情况 。 


循环 引用 常常 会 在 列表 、 元 组 、 字 典 、 实 例 以 及 函数 使 用 时 出 现 。 
对 于 由 循环 引用 而 导致 的 内 存 泄 圳 的 情况 ， 有 没有 办 法 进行 控制 和 管理 
呢 ? 实际 上 Python 上 和 目 带 了 一 个 gc 模块 ， 它 可 以 用 来 跟踪 对 象 的 “入 引用 
(incoming reference) ”和 “出 引用 〈outgoing reference) ”， 并 找 出 复杂 
数据 结构 之 间 的 循环 引用 ， 同 时 回收 内 存 垃圾 。 有 两 种 方式 可 以 触发 垃 
圾 回收 : 一 种 是 通过 显 式 地 调用 gc.collect0 进 行 垃 圾 回收 ; 还 有 一 种 是 
在 创建 新 的 对 象 为 其 分 配 内 存 的 时 候 ， 检 得 threshold 国 值 ， 当 对 象 的 数 























量 超 过 threshold 的 时 候 便 自动 进行 垃圾 回收 。 默 认 情 况 下 浆 值 设 为 
(700,10,10)， 并 且 gc 的 自动 回收 功能 是 开局 的 ， 这 些 可 以 通过 
gc.isenabled() 查 看 。 下 面 是 gc 模块 使 用 的 简单 例子 : 





import 
> pr int 了 senabled() 


Se senabled() 
mm e 

本 :| threshold() 
a 10, 10) 





对 于 本 市 开头 的 例子 ， 我 们 使 用 gc 模块 来 进行 垃圾 回收 ， 代 码 如 
下 : 





def main(): 
collected = gc.collect() 
print "Garbage collector before running: collected %d objects." % (collected) 
rint "Creating reference cycles..." 
= Leak() 
= Leak() 
b = B 
a 


= A 
= None 


田 也 四 请 中 PP 世 


= None 
collected = gc.collect() 
pprint.pprint( gc.garbage) 
print "Garbage collector after running: collected %d objects." % (collected) 
if name, == "main __": 





ret = main() 
sys.exit(ret) 





运行 程序 输出 结果 如 下 : 





Garbage collector before running: collected 9 objects. 
Creating reference cycles 

object with id 14109584 was ‘bor 

object with id 14109648 was born 


[] 
Garbage collector after running: collected 4 objects. 





gc.garbage 返 回 的 是 由 于 循环 引用 而 产生 的 不 可 达 的 垃圾 对 象 的 列 
表 ， 输 出 为 空 表示 内 存 中 此 时 不 存在 垃圾 对 象 。gc.collectO 显 示 所 有 收 
集 和 销毁 的 对 象 的 数目 ， 此 处 为 4 (2 个 对 象 A、B， 以 及 其 实例 属性 
dict) 。 


我 们 再 来 考虑 一 个 问题 ， 如 果 我 们 在 类 Leak 中 添加 析 构 方法 
_ del OO， 对象 的 销毁 形式 和 内 存 回收 的 情况 是 否 有 所 不 同 。 示 例 代 码 








如 下 : 





def _ del (self): 
print "object with id %d was destoryed" %id(self) 





当 加 入 了 析 构 方法 _del 0 在 运行 程序 的 时 候 会 发 现 gc.garbage 的 
输出 不 再 为 空 ， 而 是 对 象 A、B 的 内 存 地 址 ， 也 束 是 说 这 两 个 对 象 在 内 
存 中 仍然 以 “垃圾 ”的 形式 存在 。gc.garbag0 输 出 如 下 : 


[<_ main_ .Leak object at QOx0O0D72BFO>, <_ main__ .Leak object at 0x00D72C30>] 





这 是 什么 原因 造成 的 呢 ? 实际 上 当 存 在 循环 引用 并 且 当 这 个 环 中 存 
在 多 个 析 构 方法 时 ， 志 圾 回收 缉 不 能 确定 对 象 析 构 的 顺序 ， 所 以 为 了 安 
全 起 见 仍 然 保持 这 些 对 象 不 被 销毁 。 而 当 环 被 打破 时 ，gc 在 回收 对 象 的 
时 候 便 会 再 次 自动 调用 _del_() 方 法 。 读 者 可 以 自行 试验 。 


gc 模块 同时 文 持 DEBUG 模 式 ， 当 设置 DEBUG 模 式 之 后 ， 对 于 循环 
引用 造成 的 内 存 泄露 ，gc 并 不 释放 内 存 ， 而 是 输出 更 为 详细 的 诊断 信息 
为 发 现 内 存 泄露 提供 便利 ， 从 而 方便 程序 员 进 行 修 复 。 更 多 gc 模块 的 使 
用 方法 读者 可 以 参考 文档 : http://docs.python.org/2/library/gc.html。 








第 7 重 ”使 用 工具 辅助 项 目 开 友 


Python 项 目的 开发 过 程 ， 其 实 就 是 一 个 或 多 个 包 的 开发 过 程 ， 而 这 
个 开发 过 程 又 由 包 的 安装 、 管 理 、 测 试 和 发 布 等 多 个 节点 构成 ， 所 以 这 
是 一 个 复杂 的 过 程 ， 使 用 工具 进行 辅助 开发 有 利于 减少 流程 损耗 ， 提 升 
生产 力 。 本 章 将 介绍 几 个 常用 的 、 先 进 的 工具 ， 比 如 setuptools、pip、 
paster、nose 和 Flask-PyPI-Proxy 等 ， 这 些 工 具 涵 访 了 项 目 开 发 中 的 几 大 
节点 ， 掌 握 它们 能 够 让 读者 在 将 来 的 项 目 开发 中 达到 事半功倍 的 效果 。 








建议 70: 从 PyPI 安 装 包 


PyPI 全 称 Python Package Index， 直 译 过 来 就 是 "Python 包 索 引 ”， 它 
是 Python 编程 语言 的 软件 仓库 ， 类 1 以 Pen 的 CPAN 或 Ruby 的 Gems， 目前 
己 经 有 将 近 35?000 个 软件 和 库 〈 统 称 为 包 )〉 提交 到 上 面 。 既 然 名 字 中 下 
有 “索引 ”一 词 ， 顾 名 思 义 ， 可 以 通过 包 的 名 字 查 找 、 下 载 、 安装 PyPI 上 
对 于 包 的 作者 ， 在 PyPI 上 注册 账号 后 ， 还 可 以 登记 、 更 新 、 上 传 


ie 


PyPI 有 民 好 的 镜像 机 制 ， 可 以 方便 地 在 全 球 各 地 架设 自 有 镜 
像 ， 目 前 可 用 的 几 个 镜像 列 出 在 PyPI Mirrors 页面 上 ， 而 各 个 镜像 
的 同步 情况 可 以 在 专门 的 网 站 上 看 到 。 因 为 访问 外 国 网 站 普 授 比较 
慢 ， 为 了 方便 众多 的 Python 程 序 员 ， 豆 罗网 架设 了 一 个 镜像 ， 地 址 
是 http://pypi.douban.com， 访 问 速 度 很 快 ， 推 荐 使 用 (具体 的 使 用 
方法 见 easy_instal/pip 的 --index 参 数 )。 





某 日 ， 你 在 邮件 列表 旦 看 到 有 人 推荐 requests， 写 得 非常 烛 情 ， 
你 相当 有 兴趣 想 要 试 一 试 这 个 号 称 “ 更 适合 给 人 用 0 
那么 可 以 打开 你 的 浏览 器 ， 并 导航 到 PvPL 在 右上 角 输 入 reuqests 然 后 
单 击 搜索 按钮 ， 如 图 7-1 所 示 。 





® python 


» Package Index 


PACKAGE INDEX PyPI - the Python Package Index 


Browse packages Login 
Package submission The Python Package Index is a repository of software for the Python Ra 


List trove classifiers programming language. There are currently 34698 packages here. Lost Login? 
Use OpenD 图 月， 


List packages To contact the PyPl admins, please use the Support or Bug reports 
RSS {latest 40 updates) inks. 
RSS (newest 40 packages) 


Python 3 Packages Package documentation is now at 


PyP!l Tutorial pythonhosted.org 
PyPI Securily 


有 月 Support Package documentation Is hosted on its own domain 
PyPl Bug Reports pythonhosted.org (It was al packages python org 
PyPI Discussion and that domaln will stil work and automatically 

PyPI Developer info redirect to the new documentation home.) 


图 7-1 PyPI 首 页 


接 下 来 浏览 器 将 会 显示 搜索 结果 列表 ， 从 中 找到 名 为 requests 的 项 
目 ， 打 开 以 后 页 面 的 上 半 部 分 是 requests 的 简要 文档 ， 往 下 拉 可 以 看 到 
它 的 下 载 链接 ， 单 击 后 下 载 保存 ， 然 后 进入 下 载 目 录 ， 执 行 tar 解 压缩 。 











:~# tar ZXVf requests-1.2.3.tar.gz 





然后 进入 requests-1.2.3 目 录 安 装 。 





:~# cd requests-1.2.3 
:~/requests-1.2.3# python setup.py install 





Python setup.py install 命令 将 把 requests 库 安装 到 Python 的 库 目 录 


Os 


中 。 


因为 包 在 PyPI 上 的 主页 的 URL 都 是 
https://pypi.python.org/pypi/{package} 的 形式 ， 所 以 在 知道 包 名 的 情 
况 下 ， 熟 手 一 般 并 不 使 用 搜索 功能 ， 而 是 直接 手动 输入 URL。 








显然 ， 手 动 安 装 包 实 在 是 太 有 麻烦 了， 查找 、 下 载 、 解 压 、 安 北 整 个 
流程 完全 可 以 自动 化 。 爱 好 偷懒 的 Pythonista 自 然 编写 好 了 工具 供 大 家 
使 用 ， 其 中 setuptools 尤 其 值得 优先 推荐 给 大 家 。 在 Ubuntu Linux 上 ， 可 
以 使 用 apt 安 装 这 个 包 。 








sudo aptitude install python-setuptools 





其 他 操作 系统 大 同 小 异 ， 运 行 其 相应 的 包 管 理 软件 就 可 安装 。 但 如 
果 你 使 用 MS Windows， 则 需要 去 它 的 主页 
(https://pypi.python.org/pypi/setuptools〉 下载 ， 然 后 手动 安装 。 


操作 系统 对 应 的 软件 仓库 中 的 setuptools 版 本 通常 比较 低 ， 所 以 安装 
完成 以 后 ， 最 好 执行 以 下 命令 将 其 更 新 到 最 新 版 本 : 








easy_install -U setuptools 





setuptools 是 来 自 PEAK (Python Enterprise Application Kit， 一 个 致 
力 于 提供 Python 开发 企业 级 应 用 工具 包 的 项 目 ) ， 由 一 组 发 布 工具 组 
成 ， 方 便 程序 员 下 载 、 构 建 、 安 装 、 升 级 和 伸 载 Python 包 ， 因 为 它 可 以 
自动 处 理 包 的 依赖 关系 ， 所 以 深 受 大 家 的 喜爱 。 


ie 


因为 PEAK 最 近 几 年 发 展 停滞 ， 累 及 setuptools 也 有 好 几 年 没有 
更 新 。 所 以 有 些 程序 员 重 新 创建 了 一 个 分 文 项 目 ， 称 为 distribute， 
受到 了 大 家 的 喜爱 。 在 很 长 一 段 时 间 里 ， 运 行 easy_install -U 
setuptools 更 新 的 时 候 ， 安 装 的 其 实 是 distribute。 但 是 ， 在 2013 年 年 





初 ，distribute 合 并 到 setuptools， 回 归 主 分 文 ， 并 发 布 了 setuptools 
0.7 版 本 。 随 后 几 个 月 频繁 发 布 大 版 本 ， 人 至 2013 年 9 月 ， 最 新 的 版 本 
已 经 是 1.1.5 版 ， 而 distribute 项 目 也 就 不 再 维护 了 。 


安装 setuptools 之 后 ， 束 可 以 运行 easy_install 命 令 了 。 





# easy_install requests 

Searching for requests 

Reading https://pypi. By hon org/simple/requests/ 

Best match: requests 1. 

Downloading 

https://pypi.python.org/packages/source/r/requests/requests- 
1.2.3.tar.gz#md5=adbd3f18445f7fe5e77f65c502e264fb 

Processing requests-1.2.3.tar .gz 

writing /tmp/easy_install-vwjYKV/requests-1.2.3/setup. ei 

Running requests-1.2.3/setup.py -q bdist egg --dist-di 
/tmp/easy_install-vwjYKV/requests-1.2.3/egg-dist- i MeMFX1 

Adding requests 1.2.3 to easy-install.pth file 

Installed /usr/local/lib/python2.6/dist-packages/requests-1.2.3-py2.6.egg 

Processing dependencies for requests 

Finished processing dependencies for requests 





这 就 是 使 用 setuptools 安 装 requests 的 过 程 ， 可 以 从 输出 中 看 到 
easy_install 能 够 查找 到 最 新 版 本 的 包 ， 然 后 进行 下 载 、 安 装 ， 比 手动 安 
装 要 简单 、 方 便 得 多 。 


Ons 


setuptools 的 功能 非 党 丰富， 包括 对 Python 包 的 构建 、 测 试 、 发 
布 等 都 文 持 得 很 好 ， 这 些 功能 将 在 后 续 的 几 节 中 讲述 。 


建议 71: 使 用 pip 和 yolk 安 装 、 管 理 包 


setuptools 有 几 个 缺点 ， 比 如 功能 缺失 (不 能 查看 已 经 安装 的 包 、 不 
能 删除 已 经 安装 的 包 ) ， 也 缺乏 对 git、hg 等 版 本 控制 系统 的 原生 支持 ， 
所 以 致力 于 做 easy_ install 改 进 版 的 pip 在 最 近 丘 几 年 大 受 欢 迎 ， 成 为 了 最 流 
行 的 Python 包 管 理工 具 。 


在 安装 了 setuptools 以 后 ， 安 装 pip 就 非常 简单 了 。 





easy_install pip 





pip 使 用 子 命令 形式 的 CLI 接 口 ， 首 先 要 学 习 的 当然 是 help。 





# pzp ， help 
sa 
i “<command> [options] 
Commands: 
install Install packages. 
uninstall Uninstall packages. 
freeze Output installed packages in requirements format. 
list List installed packages. 
show Show information about installed packages. 
search Search PyPI for packages. 
wheel Build wheels from your requirements. 
zip Zip individual packages. 
unzip Unzip individual packages. 


bundle Create pybundles. 
help Show help for commands. 
General Options: 





从 子 命令 可 以 对 pip 的 功能 有 个 大 体 的 了 解 ， 也 可 以 使 用 pip help 
<command> 命 令 查 看 子 命令 的 帮助 信息 。Install、uninstall 就 是 用 得 最 多 
的 安装 与 番 载 功能 ，list 可 以 列 出 已 经 安装 的 包 ， 对 感 
用 show 命 令 查 看 它 的 具体 情况 。 下 面 我 们 重点 了 解 一 下 这 4 个 命 








# pip install requests 

Downloading/unpacking requests 
Downloading requests-1.2.3.tar.gz (348kB): 348kB downloaded 
Running setup.py egg_info for package requests 

Installing collected packages: requests 
Running setup.py install for requests 

Successfully installed requests 

Cleaning up... 


EE 一半 = 


可 以 看 到 pip 的 install 命 es es install 类 似 ， 但 输出 要 简 
洁 得 多 。 然 后 再 看 看 uninstall 命 





# pip uninstall Toques eS 
Uninstalling requests: 

/usr/1ocad /11b/python2. 6/dist-packages/requests-1.2.3-py2.6.egg 
Proceed (y/n)? y 

Successfully uninstalled requests 





删除 包 时 ，pip 需 要 输入 y 进 行 确认 ， 然 后 就 可 以 删除 干净 了 。 
下 面 我 们 来 看 一 段 代 码 : 





# python 
Python 2.6.5 (r265:79063, Oct 1 2012, 22:04:36) 
[GCC 4.4.3] on linux2 
Type "help", "copyright", "credits" or "license" for more information. 
>>> import requests 
Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 
ImportError: No module named requests 





看 ， 找 不 到 名 为 requests 的 模块 。 当 然 ， 我 们 也 可 以 用 ]ist 命 令 来 确 





# pip list 

argparse (1.2.1) 
Cheetah (2.0.1) 
docutils (0.9) 

Flask (0.9) 
Flask-RESTful (0.2.1) 
FormEncode (1.2.2) 
gevent (0.13.0) 
GnuPGInterface (0.3.2) 
greenlet (0.3.2) 
hello-prj (0.0dev) 
Jinja2 (2.6) 


# pip list | grep requests 





安装 的 包 实 在 太 多 了 ， 不 容易 验证 是 否 已 删除 ， 若 使 用 grep 命 令 帮 
助 查找 的 结果 为 空 ， 则 requests 包 已 经 删除 干净 了 。 人 他 命 令 还 可 以 单 
独 列 出 有 新 版 本 的 包 〔 使 用 --outdated 参 数 ) 和 已 安装 最 新 版 本 的 包 (使 
用 --uptodate 参 数 ) 。 男 外 ， 想 要 进一步 了 解 比 较 感 兴趣 的 模块 ， 可 以 使 
用 show 命 令 。 比 如 查看 一 下 Flask 的 信息 。 





# pip Show Flask 


Name: Flask 

Version: 0.9 

Location: /usr/local/lib/python2.6/dist-packages/Flask-0.9-py2.6.egg 
Requires: Werkzeug, Jinja. 





名 字 、 版 本 、 安 装 路 径 和 依赖 信息 一 样 不 缺 ， 这 对 我 们 了 解 应 用 程 
序 的 运行 环境 非常 有 用 。 


pip list 虽 然 能 够 列 出 已 经 安装 的 包 ， 但 使 用 上 仍然 稍 有 不 便 ， 这 就 
是 yolk 存 在 的 意义 。yolk 专 注 于 挖掘 已 经 安装 的 Python 包 的 信息 及 PyPI 
上 的 包 的 信息 。 


yolk 与 piplist 功 能 重复 的 部 分 是 yolk {-l-U}，-1 和 -U 这 两 参数 分 别 用 
来 显示 已 安装 的 所 有 包 和 可 以 更 新 的 包 ， 在 此 就 不 再 介绍 了 。 下 面 介 绍 
的 是 pip 还 不 具备 的 功能 。 








# yolk --entry-map nose 
{'console_scripts': {'nosetests': EntryPoint.parse('nosetests = nose: 
run_exit'), 
"nosetests-2.6': EntryPoint.parse('nosetests-2.6 = 
nose:run_exit')}， 
"distutils.commands': {'nosetests': EntryPoint.parse('nosetests = nose. 
commands:nosetests' )}} 





yolk--entry-map “<package> 可 以 显示 包 注 册 的 所 有 入 口 点 ， 这 样 可 
以 了 解 到 安装 的 包 都 提供 了 哪些 命令 行 工具 ， 或 者 文 持 哪 些 基 于 entry- 
point 的 插件 系统 。 上 例 中 ，nose 提 供 了 nosetests 命 令 并 实现 了 
distutils.commands 插 件 〈 即 python setup.py nosetests 扩 展 命 令 ) 。 那 么 如 
9 哪些 包 实 现 了 某 一 个 包 的 插件 协议 呢 ? --entry-points 参 数 可 以 
到 你 。 








# yolk --entry-points abu.admin 
read_and_display.admin 

read_and_display = read_and_display.admin:Admin 
caihui.bs.admin 

caihui.bs = caihui.bs.admin:Admin 





可 以 看 到 ， 文 持 abu.admin 插 件 协 议 的 包 有 两 个 : read_and_distplay 
和 caihui.bs， 它 们 的 入 口 点 名 字 分 别 是 read_and_display.admin 和 








caihui.bs.admin。 怎 么 样 ， 是 不 是 对 自己 机 右上 安装 了 的 包 有 了 更 深刻 
的 理解 ? 


最 后 ， 如 果 你 使 用 的 是 保 面 版 的 操作 系统 ， 利 用 yolk-H<package> 
可 以 打开 一 个 浏览 器 ， 并 将 你 指定 的 包 显 示 在 PYPI 上 的 主页 ， 从 此 告别 
0 当然 ，yolk 还 有 更 多 的 功能 可 通过 阅读 它 的 手册 





建议 72: 做 paster 创 建 包 


如 果 有 一 个 小 程序 ， 或 者 很 简单 一 个 库 ， 举 个 例子 ， 假 定编 写 了 一 
个 四 则 运算 的 库 。 





def add(x, y): 
eturn x+y 
def division(x, y): 
return x/y 
def multiply(x, y): 
加 和 
def subtract(x, y): 
returnx-y 


可 以 把 代码 保存 到 一 个 名 为 arithmetic.py 的 文件 中 ， 然 后 复制 到 需 
要 的 文件 目录 中 以 备 使 用 。 比 如 在 一 个 简单 的 计算 项 目 中 ， 我 们 可 以 这 
样 使 用 刚 编 好 的 库 : 








如 果 只 是 个 人 项 目 ， 或 者 很 小 的 团队 协作 ， 这 种 做 法 问题 不 大 。 但 
如 果 团 队 比 较 大 ， 就 有 几 个 问题 


| 


2) 保证 版 本 同步 。arithmetic.py 不 带 有 任何 版 本 信息 ， 不 利于 团队 
成 员 自 检 版 本 。 


显然 ， 这 个 四 则 运算 程序 库 最 好 是 像 之 前 讨论 过 的 requests 之 类 的 
优秀 的 第 三 方 库 一 样 ， 可 以 方便 地 下 载 、 安 装 、 升 级 、 番 载 ， 也 就 是 说 
能 够 放 到 PyPI 上 面 ， 也 能 够 很 好 地 跟 pip 或 yolk 这 样 的 工具 集成 。Python 
作为 “ 自 带 电池 ”的 高 级 语言 ， 目 然 提 供 了 这 方面 的 支持 ， 那 就 是 distutils 
标准 库 。distutils 标 准 库 至 少 提供 了 以 下 几 方 面 内 容 : 


1) 支持 包 的 构建 、 安 装 、 发 布 《 打 包 ) 。 




















2) 支持 PyPI 的 登记 、 上 传 。 


3) 定义 了 扩展 指令 的 协议 ， 包 括 distutils.cmd.Command 基 类 、 
distutils.commands 和 distutils.key_words 等 入 口 点 ， 为 setuptools 和 pip 等 提 
供 了 基础 设施 。 


要 使 用 distutils， 按 习惯 需要 编写 一 个 setup.py 文 件 ， 作 为 后 续 操 作 
的 入 口 点 。 在 arithmetic.py 同 层 目 录 ， 建 立 一 个 setup.py 文 件 。 





# tree 


| 一 arithmetic.py 
-一 :Setup.py 








它 的 内 容 如 下 : 





from distutils.core A setup 
setup(name='arithmetic 
version='1.0"' 
py_modules=[" arithmetic， 要 





一 眼 就 可 以 看 出 ，setup.py 文 件 的 意义 是 执行 时 调用 
distutils.core.setup() 了 水 数 ， 而 实 参 是 通过 命名 参数 指定 的 。name 参 数 指 
定 的 是 包 名 ; version 指 定 版 本 ; 而 py_modules 参 数 是 一 个 序列 类 型 ,里 
面包 含 需要 安装 的 Python 文件 ， 在 本 例 中 即 为 arithmetic.py。 


编写 好 setup.py 文 件 以 后 ， 就 可 以 使 用 python setup.py install 把 它 安 
装 到 系统 中 了 。 








# python setup.py install 

running insta 

running build 

running build_py 

creating build 

creating build/lib.1linux-x86_64-2. 

copying arithmetic.py -> DO linux-x86_64-2.6 

running install lib 

copying build/1lib.1linux-x86_64-2.6/arithmetic.py -> /usr/local/lib/python2.6/ 
dist-packages 

byte-compiling /usr/local/lib/python2.6/dist-packages/arithmetic.py to 
arithmetic.pyc 

running install egg_ 

Writing 2 en 6/dist-packages/arithmetic-1.0.egg-info 


(ee 


安 闭 成 功 后 ， 我 们 来 试 一 下 。 





# python 

>>> import arithmetic 

>>> dir(arithmetic) 

[bufltins. 
'division', 'multiply', 

>>> arithmetic.add(1, 2) 

党 


ge 
"Subtract '] 


name_', '_ package ', "add '， 








完全 符合 预期 啊 ! 接 下 来 再 用 yolk 查 看 一 下 。 





# yolk -1 | gop arithmetic 
arithmetic 1.9 - active development (/usr/local/lib/python2.6/ 


dist-packages) 





可 以 看 到 它 的确 跟 其 A TT 
install 命 令 以 外 ，distutils 还 带 有 其 他 命令 ， 可 以 通过 python setup.py-- 
help-commands 进 行 查询 。 





# python setup.py -- 
Standard commands: 


help-commands 


build build everything needed to install 

build_py "build" pure Python modules (copy to build directory) 
build_ext build C/C++ extensions (compile/link to build directory) 
build_clib build C/C++ libraries used by Python extensions 
build_scripts "build" scripts (copy and fixup #! line) 

clean clean up temporary files from 'build' command 

install install everything from build directory 


install_ lib 
install_headers 
install scripts 
install_ data 
sdist 

register 

bdist 
bdist_dumb 
bdist_rpm 
bdist_wininst 
upload 


: setup.py [global opts] cmd1 [cmd1_op 
help [cmdl cmd2 ...] 
help-commands 


: setup.py -- 
: setup.py -- 
: Setup.py cmd -- 


install all Python modules (ex 
install C/C++ header files 


tensions and pure Python) 


install scripts (Python or otherwise) 


install data files 
create a source distribution ( 
register the distribution with 


tarball, zip file, 





etc.) 
the Python package index 


create a built (binary) distribution 


create a "dumb" built distribu 
create an RPM distribution 

create an executable installer 
upload binary package to PyPI 





help 


tion 


for MS Windows 


ts] [cmd2 [cmd2_opts] ...] 





在 这 里 ， 


就 只 讲述 install 指 令 ， 
upload 将 在 建议 78 中 讲述 ， 而 其 他 更 多 指令 ， 


arithmetic 只 是 一 个 示例 性 的 小 项 目 ， 所 以 setup.py 文 件 非常 


其 他 指令 ， 比 如 sdist、register、 


请 参考 distutils 的 文档 。 
简单 。 


a ee 


据 才 行 ， 比 如 对 包 的 简短 描述 


、 详 细 描 述 、 作 者 、 作 者 邮箱 、 主 页 和 授 


权 方 式 等 。 比 如 requests 的 setup.py 文 件 中 调用 setupO 函 数 时 就 包含 以 下 
内 容 : 





setup( 
name='requests', 
version=requests._ version_ , 
description='Python HTTP for Humans.', 
long_description=open('README.rst').read() + '\n\n' + 

open('HISTORY.rst').read(), 

author='Kenneth Reitz', 
author_email='me@kennethreitz.com', 
url='http://python-requests.org', 
packages=packages, 
package_data={'': ['LICENSE', 'NOTICE'], 'requests': ['*.pem']}, 
package_dir={'requests': 'requests'}, 
include_package_data=True, 
install_ requires=requires, 
license=open('LICENSE').read(), 
zip_safe=False, 
classifiers= 


'Development Status :: 5 - Production/Stable' 
'Intended Audience :: Developers', 

'Natural Language :: English'， 

'License :: OSI Approved :: Apache Software License' 
'Programming Language :: Python 

"Programming Language :: Python :: 2.6', 
"Programming Language :: Python :: 2.7', 
"Programming Language :: Python :: 3', 

"Programming Language :: Python :: 3.3', 











包含 太 多 内 容 了 ， 如 果 每 一 个 项 目 都 手写 ， 肯 定 记 不 清楚 ， 所 以 最 
好 找 一 个 工具 可 以 自动 创建 项 目的 setup.py 文 件 以 及 相关 的 配置 、 目 录 
等 。Python 中 做 这 种 事 的 工具 有 好 几 个 ， 但 做 得 最 好 的 是 pastescript。 
pastescript 是 一 个 有 痢 良 好 插件 机 制 的 命令 行 工 具 ， 安 装 以 后 就 可 以 使 
用 paster 命 令 ， 创 建 适 用 于 setuptools 的 包 文 件 结构 。 











首先 需要 安装 pastescript。 





pip install pastescript 





安装 以 后 可 以 看 到 它 注册 了 一 个 命令 行 入口 paster (还 有 许多 插件 
协议 的 实现 ， 关 于 插件 协议 实现 的 具体 内 容 不 属于 本 节 讨 论 范 围 ， 因 此 
此 处 不 做 深入 探讨 ) 。 








# yolk --entry-map pastescript 
{'console_scripts': {'paster': EntryPoint.parse('paster = paste.script. 
command:run')}, 





接 下 来 学 习 一 下 paster 怎 么 用 《因为 本 节 专 注 村 讲述 包 的 创建 ， 所 
以 略 去 了 无 关 的 输出 ) 。 





# paster --help 
Usage: paster [paster_options] COMMAND [command_options]... 


Commands: 
create Create the file layout for a Python distribution 


help Display help 





paster 文 持 多 个 命令 ， 现 在 首先 要 学 习 的 就 是 create。create 命 令 用 于 
根据 模板 创建 一 个 Python 包 项 目 ， 创 建 的 项 目 文 件 结构 可 以 使 用 
setuptools 直 接 构 建 ， 并 且 支 持 setuptools 扩 展 的 distutils 命 令 ， 如 develop 
命令 等 。 接 下 来 看 一 下 它 的 帮助 〈 略 去 与 本 节 无 关 的 参数 ) 。 





# paster help create 
Usage: /usr/bin/paster create [options] PACKAGE_NAME [VAR=VALUE VAR2=VALUE2 ...] 


Options: 
-t TEMPLATE, --template=TEMPLATE 
dd a template to the create process 
--list-templates List all templates available 


--config=CONFIG Template variables file 





显然 ，--template 参 数 用 以 指定 使 用 的 模板 。 那 么 又 有 哪些 模板 可 以 
使 用 呢 ? 这 就 需要 先 用 --list-templates 查 询 一 下 目前 安装 的 模板 了 。 





# paster create --list-template 

Available templates: 
basic_package: A basic setuptools-enabled package 
paste_deploy: A web application deployed through paste.deploy 





如 果 一 个 全 新 的 环境 只 安装 好 了 paster， 那 么 一 般 只 有 两 个 模板 : 
basic_package 和 paste_deploy， 在 这 一 节 ， 只 需要 关注 前 者 。 





# paster create -0 arithmetic-2 -t basic_package arithmetic 
Selected and implied templates: 

PasteScript#basic_package A basic setuptools-enabled package 
Variables: 

egg: arithmetic 

package: arithmetic 

project: arithmetic 
Enter version (Version (like 0.1)) ['']: 0.0.1 


Enter description (One-line description of the package) ['']: first paster pr 

Enter long_description (Multi-line description (in reST)) ['']: first paster 
prj long sdescriptoin 

Enter keywords (Space-separated keywords/tags) ['']: 

Enter author (Author name) ['']: lyh 

Enter author_email (Author email) ['']: lyh@example.com 

Enter url (URL of homepage) ['']: http://code.example.com/arithmetic 

Enter license _ name (License name) ['']: MIT 

Enter zip_safe (True/False: if the package can be distributed as a .zip file) 
[False]: 

Creating template basic_ package 

Creating directory arithmetic-2/arithmetic 





Running /usr/bin/python setup.py egg_info 





可 以 看 到 ， 简 单 地 填写 几 个 问题 以 后 ，paster 驶 在 arithmetic-2 目 录 
生成 了 名 为 arithmetic 的 包 项 目 。 它 的 文件 结构 如 下 : 





# tree arithmetic-2/ 
arithmetic-2/ 
L 一 arithmetic 


咏 arithmetic 

= Ti py 
arithmetic.egg-info 
dependency_links.txt 
entry_points.txt 
not-zip-safe 
PKG-INFO 
SOURCES .txt 
top_level.txt 


世 docs 
license.txt 


setup.cfg 
setup.py 





然后 再 看 一 下 我 们 最 为 天 注 的 setup.py 文 件 。 





# cat arithmetic-2/arithmetic/setup.py 
from setuptools import setup, find_packages 
import sys, os 
version = '0.0.1" 
Setup(name='arithmetic'， 
version=version, 
description="first paster prj", 
long_description="""\ 
first paster prj long sdescriptoin""", 
classifiers=[], # Get strings from http://pypi.python.org/pypi? % 3 
Aaction=list_classifiers 
keywords=' '， 
author='1yh'， 
author_email='lyh@example.com', 
url='http://code.example.com/arithmetic', 
license='MIT', 
packages=find_packages(exclude=['ez_setup', 'examples', 'tests']), 
include_package_data=True, 
zip_safe=False, 
install requires=[ 
# -*- Extra requirements: -*- 
]， 
entry_points=""" 
# -*- Entry points: -*- 


mm 
’ 


) 


二 一 





看 ， 所 有 的 参数 都 帮 我 们 填 好 了 。 是 不 是 有 一 种 “有 了 paster， 再 也 
不 担心 创建 包 项 目 了 ”的 感觉 呢 ? 不 过 如 果 是 第 一 次 使 用 paster 的 话 ， 回 
答 问 题 时 可 能 会 输入 错误 ， 而 paster 又 不 能 回 退 删 除 输 入 ， 所 以 一 出 错 
束 只 好 重 来 一 次 。 男 外 ， 如 果 创 建 的 是 公司 项 目 ， 那 么 很 多 参数 的 值 都 
是 确定 的 ， 比 如 author 的 值 一 般 就 是 公司 名 ， 那 么 每 次 都 要 重新 输入 也 
非常 腑 烦 。 要 解决 上 述 的 两 个 问题 ， 束 可 以 用 上 --config 参 数 了 ， 它 是 
一 个 类 似 ini 文 件 格 式 的 配置 文件 ， 可 以 使 用 你 喜欢 的 编辑 喜 在 里 面 填 好 
各 个 模板 变量 的 值 〈 碍 询 模板 有 哪些 变量 用 --list-variables 参 数 ) ， 然 后 
就 可 以 使 用 了 。 比 如 我 们 编辑 了 公司 项 目 专 用 的 模板 文件 corp-prj- 
setup.cfg: 





pastescript] 
escription = corp-prj 
icense_name = 
eywords = Python 

g_description = corp-prj 
hor = xxx cor 

uthor_email = xxx@example.com 
url = http://example.com 
version = 0.0.1 


然后 这 样 使 用 : 


paster create -t basic package --config="corp-prj-setup.cfg" arithmetic 





paster 将 不 再 回 你 询问 ， 而 是 直接 生成 整个 项 目 ， 这 进一步 减轻 了 
创建 Python 包 的 工作 量 。 因 为 使 用 paster 确 实 能 够 帮助 开发 人 员 减 轻 创 
建 项 目的 工作 量 ， 所 以 受到 了 许多 项 目的 青睐 ， 比 如 Pyramid 束 高 有 几 
个 模板 ， 能 够 通过 模板 快速 地 创建 基于 Pyramid 的 Web 项 目 。 





建议 73: 理解 单元 测试 概念 


单元 测试 用 来 验证 程序 单元 的 正确 性 ， 一 般 由 开发 人 员 完 成 ， 是 测 
试 过 程 的 第 一 个 环节 ， 以 确保 所 写 的 代码 符合 软件 需求 和 遵循 开发 目 
标 。 好 的 单元 测试 可 以 带 来 以 下 好 处 : 


减少 了 潜在 bug， 提 高 了 代码 的 质量 。 经 过 了 严格 的 单元 测试 ， 意 
味 着 代码 中 潜在 的 bug 数 量 大 大 减少 ， 同 时 单元 测试 能 够 使 得 你 的 思考 
方式 不 同 于 编码 ， 因 此 能 够 很 快 发 现 不 合理 的 设计 或 者 馆 辑 ， 以 及 算法 
方面 的 漏洞 或 者 故障 ， 从 而 为 编写 高 质量 代码 提供 基本 保障 。 


-大 大 缩减 软件 修复 的 成 本 。 我 们 知道 在 软件 开发 生命 周期 越 早 阶 
段 友 现 问题 或 缺陷 ， 其 修复 的 代价 越 小 ， 因 此 在 单元 测试 阶段 发现 问题 
后 修复 代价 要 远 远 小 于 在 集成 测试 或 者 系统 测试 阶段 的 代价 。 


:为 集成 测试 提供 基本 保障 。 单 元 测试 可 以 大 大 减少 程序 中 各 个 部 
件 的 不 可 靠 性 ， 通 过 先 调 试 程序 部 件 再 测试 部 件 组 朔 ， 使 集成 测试 变 得 
更 加 简单 ， 测 试 人 员 因 此 可 以 将 更 多 的 精力 放 在 用 户 场景 上 。 























纵然 单元 测试 有 各 种 好 处 ， 事 实 却 往往 是 "理想 很 丰满 ， 现 实 很 骨 
感 "。 实 际 应 用 中 ， 单 元 测试 的 实践 并 不 理想 ， 原 因 是 多 方面 的 ， 一 则 


管理 层 重 视 不 够 ， 根 本 没有 把 单元 测试 提升 到 和 系统 集成 测试 同样 的 高 
度 ; 二 则 是 迫 于 项 目 期 限 的 压力 ， 开 发 人 员 往 往 没 有 更 多 的 时 间 来 写 单 
元 测试 的 用 例 和 代码 ; 三 则 开发 人 员 本 喘 存 有 趋 利 避 害 的 侥 笠 心理， 他 
们 更 关注 于 可 以 工作 的 代码 ， 一 旦 编码 完成 ， 便 迫切 地 和 希望 能 够 进行 集 
成 工作 ， 因 为 这 样 进 度 看 起 来 更 快 ， 同 时 寄 希 望 于 集成 测试 去 发 现 程序 
中 潜在 的 问题 。 那 么 ， 到 底 应 该 怎么 样 进行 有 效 的 单元 测试 呢 ?” 有 效 的 
单元 测试 应 该 从 以 下 几 个 方面 考虑 : 

1) 测试 先行 ， 遵 循 单元 测试 步骤 。 测 试 不 应 该 是 编码 结束 后 再 来 
考虑 的 事情 ， 实 际 上 从 项 目 需 求 阶段 束 应 该 开始 考虑 。 编 写 单 元 测试 应 
该 尽量 安排 在 项 目的 早期 ， 并 且 测 斌 代码 应 该 先 于 被 测试 的 代码 ， 这 样 
更 有 利于 明确 需求 。 典 型 的 单元 测试 的 步骤 如 下 : 

:创建 测试 计划 (Test Plan) 。 


编写 测试 用 例 ， 准 备 测试 数据 。 

















编写 测试 脚本 。 

编写 被 测 代 码 ， 在 代码 完成 之 后 执行 测试 脚本 。 

-修正 代码 缺陷 ， 重 新 测试 直到 代码 可 接受 为 止 。 

2) 遵循 单元 测试 基本 原则 。 常 见 的 原则 如 下 : 

一致 性 。 意 味 着 1000 次 执行 和 一 次 执行 的 结果 应 该 是 一 样 的 ， 因 
此 ， 类 似 于 currenttime=time.localtime()， 产 生 这 种 不 确定 执行 结果 的 语 
人 句 应 该 尽量 避免 。 

:原子 性 。 意 味 着 单元 测试 的 执行 结果 返回 只 有 两 种 ，True 或 者 
False， 不 存在 部 分 成 功 、 部 分 失败 的 例子 。 如 果 发 生 这 样 的 情况 ， 往 往 
是 测试 设计 得 不 够 合理 。 

:单一 职责 。 测 试 应 该 基于 情景 《scenario) 和 行为 ， 而 不 是 方法 。 


如 果 一 个 方法 对 应 着 多 种 行为 ， 应 该 有 多 个 测试 用 例 ， 而 一 个 行为 即使 
对 应 多 个 方法 也 只 能 有 一 个 测试 用 例 。 例 如 下 边 的 代码 。 














testMethod() : 
assertTrue(behaviour1) 
assertTrue(behaviour2) 





应 该 改 为 : 





testMethodCheckBehaviour1I 
() : 

assertTruel( 
testMethodCheckBehaviour2 
[多 大 


assertTrue(behaviour2) 





-隔离 性 。 不 能 依赖 于 具体 的 环境 设置 ， 如 数据 库 的 访问 、 环 境 变 
量 的 设置 、 系 统 的 时 间 等 ， 也 不 能 依赖 于 其 他 的 测试 用 例 以 及 测试 执行 
的 顺序 ， 并 且 无 条 件 逻 辑 依赖 。 单 元 测试 所 有 的 输入 应 该 是 确定 的 ， 方 
法 的 行为 和 结果 应 是 可 以 预测 的 。 因 此 要 避免 以 下 的 测试 例子 : 





te ho dpe foreorAfter(): 


sertTrue(behaviour1) 
elif arte 
sertTr ue(behaviour2) 
GESB: 
assertTrue(behaviour3) 





修改 为 : 





testMetho odoror re(): 
be 


et honed iour1) 
tes Eh oaAfter [0 
af 


人 iour2) 
tes Bt oa) 
aft 


before = False 
assertTrue(behaviour3) 





3) 使 用 单元 测试 框架 。Python 测 试 也 曾经 历 过 “ 蛋 充 时 代 ”， 那 个 
时 候 测 试 完全 是 个 人 化 的 行为 ， 没 有 统一 的 框架 标准 ， 每 个 用 Python 构 
建 的 项 目 在 编写 和 运行 测试 方面 都 采用 自己 的 习惯 做 法 。 这 种 做 法 不 仅 
效率 低下 ， 而 且 不 利于 项 目 管理 。 笠 好 后 来 Python 社区 出 现 了 一 些 测 试 
套件 ， 提 供 约 定 和 通用 标准 ， 后 面 逐 渐 演 变 为 流行 的 测试 框架 。 在 单元 
测试 方面 常见 的 测试 框架 有 PyUnit 等 ， 它 是 Kent Beck 和 Erich Gamma 所 
设计 的 JUnit 的 Python 版 本 ， pio 2.1 之 前 需要 单独 安装 ，Python 2.1 
之 后 它 成 为 一 个 标准 库 ， 名 为 unittest。 已 文 持 下 元 测试 目 动 化 ， 可 以 共 
享 地 进行 测试 环境 的 设置 和 清理 ， 文 持 测试 用 例 的 嘲 聚集 以 及 独立 的 测试 
报告 框架 。 我 们 以 unittest 来 看 看 如 何 借助 单元 测试 框架 更 好 地 进行 单元 
测试 。 unittest 相 关 的 概念 主要 有 以 下 4 个 : 


-测试 固件 (test fixtures) 。 测 试 相关 的 准备 工作 和 清理 工作 ， 基 于 
类 TestCase 创 建 测 试 固件 的 时 候 通 第 需要 重新 实现 setUpO0 和 tearDown() 
方法 。 当 定义 了 这 些 方法 的 时 候 ， 测 试 运行 器 会 在 运行 测试 之 前 和 之 后 
分 别 调用 这 两 个 方法 。 


:测试 用 例 (test case) 。 最 小 的 测试 单元 ， 通 销 基 于 TestCase 构 
建 。 











-测试 用 例 集 (test suite) 。 测 试用 例 的 集合 ， 使 用 TestSuite 类 来 实 
现 ， 除 了 可 以 包含 TestCase 外 ， 也 可 以 包含 其 其 他 TestSuite。 


测试 运行 器 (test runner) 。 控 制 和 驱动 整个 单元 测试 过 程 ， 一 般 
使 用 TestRunner 类 作为 测试 用 例 的 基本 执行 环境 ， 常用 的 运行 器 为 
TextTestRunner， 它 是 TestRunner 的 子 类 ， 以 文字 方式 运行 测试 并 报告 结 
果 。 


来 看 一 个 简单 实例 。 假 设 要 测试 下 述 





class MyCal(object): 
def add(self,a,b): 
return a+b 
def sub(self,a,b): 
return a-b 








首先 编写 测试 用 例 ， 并 在 setUp0 方 法 中 完成 初始 化 工作 ， 在 
tearDown() 方 法 中 完成 资源 释放 相关 的 工作 。 我 们 采用 动态 方法 编写 测 
0 类 中 ， 这 些 方法 按 习 惯 通常 以 test 
开 涉 。 上 其 体 如 下 








class MyCalTest(unittest.TestCase): 
def setUp(self ): 
print "running set up" 
self.mycal = mycal.MyCal() 
def tearDown(self Fs 
print "running teardown" 
self.mycal = None 
def testAdd(self 
self. assertEqual(self. mycal.add(-1,7), 6) 
def testSub(self): 
self.assertEqual(self.mycal.sub(10,2), 8) 





在 创建 了 一 些 TestCase 子 类 的 实例 作为 测试 用 例 之 后 ， 下 一 步 要 做 
的 工作 就 是 用 TestSuit 类 来 组 织 它们 。TestSuite 类 可 以 看 成 是 TestCase 类 
的 一 个 容器 ， 用 来 对 多 个 测试 用 例 进 行 组 织 ， 这 样 多 个 测试 用 例 可 以 自 
动 在 一 次 测试 中 全 部 完成 。 





suite = unittest.TestSuite() 
suite.addTest(MyCalTest ("testAdd")) 
suite.addTest(MyCalTest("testSub")) 





在 编写 完 测 试用 例 及 组 织 好 测试 用 例 之 后 ， 现 在 可 以 执行 测试 了 。 





runner = unittest.TextTestRunner() 
runner.run(suite) 





运行 命令 python-m ”unittest-v MyCalTest， 得 到 测试 结果 的 输出 如 





testAdd (MyCalTest.MyCalTest) ... running set up 
running teardown 
ok 


testSub (MyCalTest.MyCalTest) ... running set up 
running teardown 
ok 


Ran 2 tests in 0.000s 
OK 








当然 实际 执行 测试 过 程 和 应 用 测试 框架 比 上 面 的 例子 要 复杂 得 多 。 
读者 可 以 在 Python 文档 中 查看 更 多 关于 unittest 使 用 的 详细 信息 ， 并 在 实 
际 工作 中 实践 。 


最 后 需要 强调 的 是 ， 单 元 测试 绝 不 是 浪费 时 间 的 无 用 功 ， 它 是 高 质 
a 在 软件 开发 的 环节 中 值得 投入 精力 和 时 间 把 好 这 一 








建议 74: 为 包 编 写 单元 测试 


当 我 们 创建 了 一 个 包 ， 接 着 就 开始 为 它 编写 业务 逻辑 的 代码 。 比 如 
在 前 文中 ， 我 们 创建 了 arithmetic 包 ， 并 在 里 面 增加 一 个 加 法 函数 ， 如 
下 : 


def add(x, y): 
return x+y 


无 名 氏 说 :“ 当 你 写 下 代码 ，bug 随 之 而 来 "。 所 以 我 们 需要 对 代码 
进行 测试 ， 以 便 交 付 物 在 交付 给 业务 的 下 游 部 门 使 用 时 有 一 定 质 量 保 
pe 
尺码 了 。 











这 样 ， 当 以 arithmetic.py 为 入 口 文件 执行 arithmetic.py 的 时 候 ， 就 会 
运行 这 些 测 试 代 码 ， 实 现 对 add0 函 数 的 质量 检测 。 像 这 种 针对 函数 编写 
的 测试 ， 我 们 称 为 “单元 测试 ?， 它 是 白 盒 测试 的 一 种 ， 所 以 单元 测试 用 
例 都 是 根据 函数 的 代码 而 制定 的 。 通 过 单元 测试 ， 可 以 有 效 地 避免 软件 
退化 ， 增 进 软件 质量 ， 并 更 快 地 产生 健壮 的 代码 。 甚 至 对 开发 人 员 来 
说 ， 单 元 测试 用 例 也 是 最 好 的 文档 。 


里 然 上 例 让 大 家 感觉 测试 非常 简单 ， 但 实际 项 目 中 的 测试 也 有 不 少 
采 烦 : 


1) 程序 员 希 望 测试 更 加 自动 化 ， 想 象 一 下 ， 如 果 加 减 乘 除 4 个 函数 
不 是 实现 在 arithemtic.py 一 个 文件 中 ， 而 是 分 列 在 4 个 文件 中 ， 那 么 要 测 
试 它们 就 需要 分 别 运 行 这 4 个 文件 。 再 想象 一 下 ， 实 际 项 目 中 可 能 一 个 
包 中 有 几 十 甚至 上 百 个 文件 ， 那 么 想 要 全 部 测试 一 次 就 非常 困难 。 


2) 一 个 测试 用 例 往往 在 测试 之 前 需要 进行 打桩 或 做 一 些 准备 工 
作 ， 在 测试 之 后 要 清理 现场 ， 最 好 有 一 个 框架 可 以 自动 完成 这 些 工作 。 




















3) 对 于 大 项 目 ， 大 量 的 测试 用 例 需 要 分 门 别 类 地 放置 ， 而 测试 之 
后 ， 分 别 产生 相应 的 测试 报告 。 


Python 是 一 门 务实 的 语言 ， 所 以 自 带 的 电池 中 就 包含 了 一 个 名 为 
unittest 的 模块 ， 可 以 解决 这 些 问题 。 关 于 unittest 的 知识 ， 我 们 在 建议 73 
中 已 经 学 过 ， 接 下 来 就 看 一 下 如 何 使 用 unittest 进 行 测试 的 代码 。 





t arithmetic 

se(unittest.TestCase): 
_add(self): 
.assertEqual(arithmetic.add(1, 1), 2) 
if _ name ==" | Wy 


impor 
class Testoe 
def test 

self 





n .main( 
把 这 些 代码 保存 到 test_arithmetic.py 
中 ， 然 后 执行 命令 : 





>python test_arithmetic.py 


Ran 1 test in 90.000s 
OK 





虽然 没有 显 式 地 调用 TestCase.test_add， 但 从 Ranl test in 0.000s 这 人 名 
输出 中 可 以 看 到 这 个 测试 用 例 已 经 执行 到 了 ， 这 就 是 框架 的 好 处 。 除 了 
上 自动 调用 匹配 以 test 开 头 的 方法 之 外 ，unittest.TestCase 还 有 模板 方法 
setUp() 和 tearDown()， 通 过 和 窗 新 这 两 个 方法 ， 能 够 实现 在 测试 之 前 执行 
一 些 准 备 工作 ， 并 在 测试 之 后 清理 现场 。 


然后 再 回 到 最 初 的 假设 : 在 arithmetic 项 目 中 ， 若 加 减 乘除 4 个 函数 
分 别 在 不 同 的 文件 中 ， 那 么 测试 用 例 也 可 能 分 别 写 在 4 个 文件 中 ， 那 么 
运行 python test_XXx.py 命 令 的 形式 就 无 法 简化 测试 工作 。 这 时 候 可 以 使 
用 unittest 的 测试 发 现 (test discover) 功能 。 

















unittest 将 递归 地 查找 当前 目录 下 [匹配 test*.py 模 式 的 文件 ， 并 将 其 中 
unittest.TestCase 的 所 有 子 类 都 实例 化 ， 然 后 调用 相应 的 测试 方法 进行 测 
试 ， 这 就 一 举 解决 了 “通过 一 条 命令 运行 全 部 测试 用 例 ” 的 问题 。 


unittest 的 测试 发 现 功能 是 Python ”2.7 版 本 中 才 有 的 ， 如 果 你 在 使 用 





更 旧 的 版 本 ， 请 安装 unittest2 。 


尽管 unittest 的 测试 发 现 功 能 已 经 非常 方便 ， 但 是 因为 它 需 要 高 版 本 
的 Python 支持 ， 所 以 大 家 喜欢 使 用 setuptools 的 扩展 命令 test。 





>python setup.py test 

running test 

running egg_info 

writing arithmetic.egg-info/PKG-INFO 

writing top-level names to arithmetic.egg-info/top_level.txt 
writing dependency_links to arithmetic.egg-info/dependency_links.txt 
writing entry points to arithmetic.egg-info/entry_points.txt 
reading manifest file 'arithmetic.egg-info/SOURCES.txt' 
writing manifest file 'arithmetic.egg-info/SOURCES.txt' 
running build_ext 

test_add (test_arithmetic.TestCase) ... ok 


Ran 1 test in 0.000s 
OK 





setuptools 对 distutils.commands 进 行 了 扩展 ， 增 加 了 test 命 令 。 如 上 例 
所 示 ， 这 个 命令 执行 的 时 候 ， 先 运行 egg_info 和 build_ext 子 命令 构建 项 
目 ， 然 后 把 项 目 路 径 加 到 sys.path 中 ， 再 搜寻 所 有 的 测试 套件 (test 
suite， 通 常 指 多 个 测试 用 例 或 测试 套件 的 组 合 ) ， 并 运行 之 。 要 使 用 这 
个 扩展 命令 ， 需 要 在 调用 setup0) 函 数 的 时 候 同 它 传递 test_suite 元 数据 。 
比如 在 arithmetic 项 目 中 ， 是 这 样 的 : 








>cat setup.py 
setup(name='arithmetic"', 


test_suite = "test_arithmetic", 





test_suite 元 数据 的 值 可 以 指 同 一 个 包 、 模 块 、 类 或 函数 ， 比 如 在 车 
名 的 flask 项 目 中 ， 是 test_suite='flask.testsuite.suite'"， 其 中 
flask.testsuite.suite 是 一 个 函数 ;而 在 arithmetic 项 目 中 ，test_arithmetic 是 
一 个 模块 。 


使 用 setuptools 的 测试 发 现 功能 ， 可 以 给 开 及 人 员 更 一 致 的 开发 体 
验 ， 就 像 使 用 build、install 命 令 一 样 ， 所 以 受到 了 大 家 的 豆 爱 。 但 是 来 
目 unittest 本 里 的 缺陷 让 开发 人 员 想 要 找到 一 个 更 好 的 测试 框 染 。 


1) unittest 并 不 够 Pythonic， 比 如 从 JUnit 中 继承 而 来 的 首 字 母 小 写 的 
骆驼 命令 法 ; 所 有 的 测试 用 例 都 需要 从 TestCase 继 承 。 


2) unittest 的 SetUpO 和 tearDownO 只 是 在 TestCase 的 层面 上 提供 ， 即 
每 一 个 测试 用 例 执行 的 时 候 都 会 运行 一 过 ， 如 果 有 许多 模块 需要 测试 ， 
那么 创建 环境 和 清理 现场 操作 都 会 市 来 大 量 工作 。 


3) unittest 没 有 插件 机 制 进行 功能 扩展 ， 比 如 想 有 要 增加 测试 覆盖 统 
计 特 性 就 非常 困难 。 


nose 就 是 作为 更 好 的 测试 框架 进入 大 家 视线 的 ， 而 且 它 更 是 一 个 具 
有 更 强大 的 测试 发 现 运行 的 程序 。 此 外 nose 定 义 了 插件 机 制 ， 使 得 扩展 
nose 的 功能 成 为 可 能 (默认 自 带 coverage 搬 件 ) 。 使 用 pip、easy_install 
安装 以 后 ， 就 多 了 一 个 nosetests 命 令 可 以 使 用 。 比 如 在 arithmetic 项 目 中 
运行 : 


>nosetests -V 
test_add (test_arithmetic.TestCase) ... ok 


Ran 1 test in 0.004s 
OK 


可 以 看 到 nose 能 够 自动 发 现 测 试用 例 ， 并 调用 执行 ， 由 于 它 与 原 有 
的 unittest 测 试用 例 兼 容 ， 所 以 可 以 随时 将 它 引 入 到 项 目 中 来 。 其 实 nose 
的 测试 发 现 机 制 更 进一步 ， 它 抛弃 了 unittest 中 测试 用 例 必须 放 在 
TestCase 子 类 中 的 限制 ， 只 要 命名 符合 (C?:AIPb_.-)[TUest 正 则 表达 式 的 类 
和 函数 都 可 作为 测试 用 例 运行 。 


此 外 ，nose 作 为 一 个 测试 框架 ， 也 提供 了 与 unittest.TestCase 类 似 的 
断言 函数 ， 但 它 抛 弃 了 unittest 的 那 种 Java 风 格 的 命令 方式 ， 使 用 的 是 符 
合 PEP8 的 命名 方式 。 


针对 unittest 中 setUpO 和 tearDownO 只 能 放 在 TestCase 中 的 问题 ，nose 
提供 了 3 个 级 别 的 解决 方案 ， 这 些 配 置 和 清理 函数 ， 可 以 放 在 包 
(_init_ .py 文件 中 ) 、 模 块 和 测试 用 例 中 ， 非 常 完美 地 解决 了 不 同 层 
次 的 测试 需要 的 配置 和 清理 需求 。 


最 后 ，nose 与 setuptools 的 集成 更 加 友好 ， 提 供 了 nose.collector 作 为 
通过 的 测试 套件 ， 让 开发 人 员 无 须 针 对 不 同 项 目 编写 不 同 的 套件 。 比 如 
针对 arithmetic 项 目的 setup.py 文 件 作 如 下 修改 : 








>cat Setup .py 
Setup(name='arithmetic'， 


# t_suite = "test_arithmetic", 


而 
test_suite = "nose.collector", 





然后 运行 python setup.py test， 得 到 的 结果 是 一 样 的 。 因 为 使 用 了 
nose.collector 之 后 ，test_suite 元 数据 就 确定 不 变 了 ， 所 以 它 也 非常 适合 
写 入 paster 的 模板 中 去 ， 在 构建 目录 的 时 候 自 动 生 成 。 


建议 75: 利用 测试 驱动 开发 提高 代码 的 可 测 性 


测试 驱动 开发 〈Test Driven Development，TDD ) 是 敏捷 开发 中 一 
个 非常 重要 的 理念 ， 它 提倡 在 真正 开始 编码 之 前 测试 先行 ， 先 编写 测试 
代码 ， 再 在 其 基础 上 通过 基本 运 代 完成 编码 ， 并 不 断 完 善 。 其 目的 是 编 
写 可 用 的 干净 的 代码 。 所 谓 可 用 束 是 能 够 通过 测试 满足 基本 功能 需求 ， 
而 干净 则 要 求 代码 设计 良好 、 可 读 性 强 、 没 有 元 余 。 在 软件 开发 的 过 程 
中 引入 TDD 能 带 来 一 系列 好 处 ， 如 改进 的 设计 、 可 测 性 的 增强 、 更 松 的 
耘 合 度 、 更 强 的 质量 信心 、 更 低 的 缺陷 修复 代价 等 。 那 么 ， 如 何在 编程 
过 程 中 实施 测试 驱动 开发 呢 ? 一 般 来 说 ， 遵 循 如 图 7-2 所 示 的 过 程 。 





| 


编写 测试 用 例 










一 一 一 一 


运行 测试 





图 7-2 ”测试 驱动 开发 流程 


1) 编写 部 分 测试 用 例 ， 并 运行 测试 。 


2) 如 末 测 试 通过 ， 则 回 到 测试 用 例 编写 的 步 缀 ， 继 续 添 加 新 的 测 


试用 例 。 
3) 如 果 测 试 失 败 ， 则 修改 代码 直到 通过 测试 。 


4) 当 所 有 测试 用 例 编写 完成 并 通过 测试 之 后 ， 再 来 考虑 对 代码 进 


行 重 构 。 


假设 开发 人 员 需 要 编写 一 个 求 输 入 数列 的 平均 数 的 例子 。 在 开始 编 
写 测试 用 例 之 前 我 们 先 编写 简单 的 编码 以 保证 测试 能 真正 开始 执行 。 


假设 源 文件 avg.py 内 容 如 下 : 





def avg(x): 





当 完 成 基本 的 代码 框架 之 后 ， 便 可 以 开始 实施 TDD 的 具体 过 程 了 。 


步骤 1 编写 测试 用 例 。 基 本 的 测试 用 例 应 该 包括 对 整数 、 浮 点 
数 、 混 合 输入 情况 下 基本 功能 的 验证 ， 以 及 对 空 输入 、 无 效 输入 的 处 
理 。 测 试用 例 代 码 如 下 : 





import unittest 
from avg import avg 
class TestAvg(unittest.TestCase): 
def test int(self): 
t "test average of integers: 
self.assertEqual(avg([9,1,2]), 3 
def test float(selfji 
t "test average of float : 
Self.assertEqual(avg([1. 六 2:5,0:8]},1.5} 
def test —empty(self ]: 
print "test empty i 
self. ee ley 
def test mixtself hs 
print "test with mix input 
self. assort dartavotl Ee 55 3) 
def test -invalid(se 
print "test i invalid input:" 
self. Suse Re tAEpe a DY dp 
站 name, == '_ main 
unittest .main() 








又 2 运行 测试 用 例 〈 部 分 输出 )， 测 试 结果 显示 失败 ， 如 图 7-3 


test_empty (tesStaug .TIesthug>y ... test empty input: 

ok 

test_float (testavg.Iestfvug) ... test average of float: 
FAIL 

test_jint 《testavg.TIestfvg>》 ... test average of jintegers: 


FAIEL 

test_invalid testavg.Testfyug> ... test with invalid input: 
FAIL 

test_mix 《testaug.Iesthug) ... test with mix input: 

FAIL 





图 7-3 ”测试 结 


步骤 3 ”开始 编码 直到 所 有 的 测试 用 例 都 通过 。 这 是 一 个 不 停 地 重 
SA 过 程 ， 需 要 多 次 草 复 编码 测试 ， 直 到 上 面 的 测试 用 例 全 部 执行 
Ws 





def yo) 
f len(x)<=0: 
print "you need input at least one number" 
return False 
sum = 0 


except TypeError : 
raise TypeError("your input is not value with unsupported type") 
return sum/len(x) 





步骤 4 重 构 。 在 测试 用 例 通 过 测试 之 后 ， 现 在 可 以 考虑 一 下 重 构 
的 问题 了 。 代 码 有 没有 更 优化 的 实现 方式 呢 ? 显然 直接 利用 内 建 函 数 
sum 更 高 效 直 接 。 因 此 对 代码 进行 章 构 并 重新 测试 生成 最 终 产 品 代 码 。 








def ayaG Ws 
f len(*x)<=0: 

print "you need input at least one number" 
return False 

try: 
return sum(*x)/len(*x) 

except TypeError: 
raise TypeError("your input is not value with unsupported type") 








关于 测试 驱动 开发 和 提高 代码 可 测 性 方面 有 以 下 儿 扣 需要 说 明 : 


-TDD 只 是 手段 而 不 是 目的 ， 因 此 在 实践 中 尽量 只 验证 正确 的 事 
情 ， 并 且 每 次 仅仅 验证 一 件 事 。 当 过 到 问题 时 不 要 局 限于 TDD 本 身 所 涉 





及 的 一 些 概念 ， 而 应 该 回头 想 想 采用 TDD 原 本 的 出 发 点 和 目的 是 什么 。 








汕 试 驱动 开发 本 身 驶 是 一 门 学 问 ， 不 要 指望 通过 一 个 简单 的 例子 
束 掌 握 其 精髓 。 如 果 需 要 更 深入 的 了 解 ， 推 荐 在 阅读 相关 书籍 的 同时 在 
实践 中 不 断 提 高 对 其 的 领悟 。 


代码 的 不 可 测 性 可 以 从 以 下 几 个 方面 考量 :实践 TDD 困 难 ; 外 部 
依赖 太 多 ; 雷 要 写 很 多 模拟 代码 才能 完成 测试 ， 职 贡 太 多 导致 功能 模 
糊 ; 内 部 状态 过 多 且 没 有 办 法 去 操作 和 维护 这 些 状态 ， 函 数 没 有 明显 返 
回 或 者 参数 过 多 ; 低 内 聚 高 耘 合 ， 等 等 。 如 果 在 测试 过 程 中 遇 到 这 些 问 
题 ， 应 该 停 下 来 想 想 有 没有 更 好 的 设计 。 








建议 76: 使 用 Pylint 检 查 代码 风格 


如 果 你 的 团队 遵循 PEP8 的 编码 风格 ，Pylint 是 个 不 错 的 选择 (当然 
还 有 其 他 很 多 选择 ， 如 pychecker、pep8 等 ) 。Pylint 始 于 2003 年 ， 是 一 
个 代码 分 析 工 具 ， 用 于 检查 Python 代 人 码 中 的 错误 ， 查 找 不 符合 代码 编码 
规范 的 代码 以 及 潜在 的 问题 。 文 持 不 同 的 OS 平台 ， 如 Windows、 
Linux、OSX 等 ， 目 前 最 新 的 版 本 为 1.0.0。 其 特性 如 下 : 


.代码 风格 审查 。 它 以 Guido van Rossum 的 PEP8 为 标准 ， 能 够 检查 
代码 的 行 长 度 ， 不 符合 规范 的 变量 名 以 及 不 恰当 的 模块 导入 等 不 符合 编 
码 规范 的 代码 。 


-代码 错误 检查 。 如 未 被 实现 的 接口 ， 方 法 缺少 对 应 参数 ， 访 问 模 
块 中 未 定义 的 变量 等 。 


:发现 重 复 以 及 设计 不 合理 的 代码 ， 帮 助 重 构 。 


高 度 的 可 配置 化 和 可 定制 化 ， 通 过 对 pylintrc 文 件 的 修改 可 以 定义 
自己 适合 的 规范 。 


` 文 持 各 种 IDE 和 编辑 器 集成 。 如 Emacs、Edlipse、WingIDEF、 
VIM、Spyder 等 。 读 者 可 以 查看 http://docs.pylint.org/ide-integration 获 取 
更 为 详细 的 信息 。 


-能够 基于 Python 代 码 生 成 UML 图 。Pylint 0.15 中 就 集成 了 
Pyreverse， 能 够 轻易 生成 UML 图 形 。 感 兴趣 的 读者 可 以 查看 
http:/www.logilab.org/blogentry/6883。 


能够 与 Hudson、Jenkins 等 持续 集成 工具 相 结合 文 持 自 动 代 码 审 
查 。 





下 面 我 们 来 看 如 何 使 用 Pylint 进 行 代码 检查 。 以 求 平衡 数 为 例 〈 平 
衡 数 的 定义 : 在 一 个 列表 中 该 数字 之 前 的 所 有 数 之 和 与 该 数 之 后 的 所 有 
数 之 和 相等 ) 。 代 码 如 下 : 








def main(): 


This program is used to find the balance point,the defenition of the balance 
point is that: 
In a array,the sum of all the number before present point is equal to the sum 
of the number after present point 
mm 


numbers = [1,3,5,7,8,25,4,20,29] 
sum = 
for num in numbers: 
sum += num 
rint ("The present number is",num,"\n") 
for index in range(len(numbers)): 
print ("The present index is",index,"\n") 
former = 0 
after = 0 
i=0 
for i in range(index): 
ormer += numbers[i] 
after = sum - pa - numbers[index] 
if(former == afte 
Po ‘The balance point is:", numbers[index]) 








使 用 Pylint 分 析 代 码 ， 输 出 分 0 一 部 分 为 源 代 码 分 析 结 
果 ， 第 二 部 分 为 统计 报告 。 报 告 部 分 主要 是 一 些 统计 信息 ， 总 体 来 说 有 
以 下 6 类 : 


1) Statistics by type: 检查 的 模块 、 函 数 、 类 等 数量 ， 以 及 它们 中 
存在 文档 注释 以 及 不 良 命 名 的 比例 。 


2) Raw metrics: 人 代码、 注释、 文档 、 空 行 等 占 模 块 代码 量 的 百 分 
比 统计 。 


3) Duplication: 重复 代码 的 统计 百分比 。 


4) ps by category: 按照 消息 类 别 分 类 统计 的 信息 以 及 和 上 
一 次 运行 结果 的 对 比 。 


5) Messages: 具体 的 消息 ID 及 它们 出 现 的 次 数 ， 如 C0303 出 现 29 








次 。 





6) Global evaluation: 根据 公式 计算 出 的 分 数 统 计 10.0- 


((float(S*error+warning+refactor+convention)/statement)*10)。 


我 们 来 重 太 讨论 一 下 源 代 码 分 析 主 要 以 消息 的 形式 显示 代码 中 存在 
的 问题 。 消 息 以 MESSAGE_TYPE:LINE_NUM:[OBJECT:]MESSAGE 的 
形式 输出 ， 如 图 7-4 所 示 。 主 要 分 为 以 下 5 类 : 


(OC) 惯例 。 违 反 了 编码 风格 标准 。 





-(R) 重 构 。 写 得 非常 糟糕 的 代码 。 
(W) 警 告 。 某 些 Python 特定 的 问题 。 
-(E) 错 误 。 很 可 能 是 代码 中 的 bug。 


(FE) 致 命 错误 。 阻 止 Pylint 进 一 步 运行 的 错误 。 





: Trailing whitespace (trailing-whitespace> 
: Trailing whitespace (trailing-whitespace» 


; Trailing whitespace (trailing-whitespace) 
: Found indentation with tabs instead of spaces Cnixed-indentation» 
: Trailing whitespace (trailing-whitespace) 


图 7-4 ”Pylint 输 出 信息 





比如 图 7-4 第 一 行 信息 输出 trailing-whitespace 信 息 ， 如 果 想 进一步 弄 
清楚 这 个 信息 所 表达 的 意思 ， 可 以 使 用 命令 pylint --help-msg="trailing- 
whitespace" 来 查看 。 





No config file found, using default configuration 
:CO0303 (trailing-whitespace): *Trailing whitespace* 

Used when there is whitespace between the end of a line and the newline. Thi 
message belongs to the format checker. 

















这 里 提示 的 是 行 尾 存在 空格 ， 也 许 对 很 多 人 来 说 这 类 格式 检查 过 于 
严格 。 再 比如 上 面 的 检查 中 输出 较 多 的 是 W0312( 使 用 Tab 键 而 不 是 空 
格 键 作 为 缩 进 ) 相关 的 错误 ， 如 果 不 希 望 对 这 类 代码 风格 进行 检查 ， 可 
以 使 用 命令 行 过 滤 掉 这 些 类 别 的 信息 ， 如 pylint ”-d ”C0303,W0312 
BalancePoint.py， 输 出 结果 如 图 7-5 所 示 。 


Module BalancePoint 
: Line too long (91/88> (line-—too0—-long» 
: Line too long C111/808> Cline—to0—long> 
: Redefining built-in :Sum 《redef ined—-hbuiltin> 
: Comma not followed by a Space 
numbers = [1.3.5.7.8.25.4.280.29] 
no-space-after-comma> 


not followed by a space 
1 I ET PA ”》 
^ 人 个 《no-space-after-comma》 
: 15, 2: Comma not followed by a space 
print "The present index is",index,."n''> 
^ 人 《no-space-after-comma> 





图 7-5 ”过 滤 挥 条 些 类 别 信 息 后 的 输出 


根据 信息 提示 做 如 下 修改 再 运行 便 不 再 有 其 他 问题 ， 而 Global 
evaluation 的 评估 为 10。 


1) 调整 第 五 、 第 六 行 代码 长 度 。 
2) sum 名 称 和 内 建 函 数 sum 同 名 ， 修 改 为 result。 
3) 在 列表 后 面 增加 空格 ，numbers = [1, 3, 5, 7, 8, 25, 4, 20, 29]。 


4) 在 12 行 输出 语句 后 面 加 上 空格 print ("The present index is"， 
index,"\n")。 


5) 在 12 行 输出 语句 后 面 加 上 空格 print ("The present number is", 
num,"\n")。 


Pylint 文 持 可 配置 化 ， 如 果 在 项 目 中 希望 使 用 统一 的 代码 规范 而 不 
是 默认 的 风格 来 进行 代码 检查 ， 可 以 指定 --generate-rcfile 来 生成 配置 文 
件 。 默 认 的 Pylintrc 可 以 在 Pylint 的 目录 examples 中 找到 。 如 默认 文 持 的 
变量 名 的 正则 表达 式 为 : variable-rgx=[a-z_][a-z0-9_]{2,30}$。 如 果 希 望 
改 为 只 能 以 2~10 个 字符 的 小 写字 母 俞 名 ， 可 以 将 代码 修改 为 variable- 
rgx=[a-z_]{2,10}$。 其 他 配置 如 reports 用 于 控制 是 否 输 出 统计 报告 ; 
max-module-lines 用 于 设置 模块 最 大 代码 行 数 ，max-line-length 用 于 设置 
代码 行 最 大 长 度 ， max-args 用 于 设置 函数 的 参数 个 数 等 。 读 者 可 以 自行 














查看 pylintrc 文 件 ， 获 取 更 为 详细 的 信息 。 


建议 77: 进行 融 效 的 代码 审查 


“代码 审查 是 件 很 无 聊 的 事情 ， 费 时 费力 ， 纯 粹 形式 主义 >， 有 这 样 
想法 的 开发 人 员 不 在 少数 ， 甚 至 很 多 团队 由 于 这 些 原 因 或 者 开发 进度 等 
其 他 因素 干脆 就 直接 忽略 这 个 环节 。 那 么 ， 是 不 是 代码 审查 真 的 那么 一 
无 是 处 呢 ? 真相 是 : 它 远 比 你 想象 的 要 重要 得 多 。 很 多 人 之 所 以 会 产生 
这 样 的 误区 ， 多 半 和 是 因为 代码 审查 的 流程 不 够 高 效 或 者 审查 的 目的 出 现 
了 偶 关 。 我 们 通过 一 组 统计 数据 来 看 严格 高 效 的 代码 审查 到 砌 有 多 重 








要 ， 如 图 7-6 所 示 。 


假设 存在 10000 个 bug | | 修复 一 个 bug 的 代价 ($) 


代码 审查 10% 75 
呈 9000 

单元 测试 | wm 150 
Cm 

功能 测试 60% "0 
Cm 

系统 测试 70% 2000 
CW 

客户 汇报 | 30% 25 000 
全 04 

















总 体 代价 
75000 | 450000 
345000 | 690000 
2505 000 | 1410 000 
6537000 | 2754 000 
10 877 000 | 4914 000 








图 7-6 ”不同 代码 审 碍 效率 下 修复 bug 的 代价 


图 7-6 所 表示 的 是 在 不 同 的 阶段 中 未 经 过 严格 有 效 的 代码 审查 和 经 
过 高 效 代码 审查 后 所 得 到 的 bug 发 现 比 率 和 修复 代价 对 比 关 系 。 从 图 7-6 
可 以 看 出 ， 有 效 的 代码 审 碍 流程 非常 必要 ， 它 能 够 使 得 大 量 bug 在 该 阶 
段 被 发 现 ， 并 且 大 幅度 降低 bug 修 复 的 总 体 代 价 ， 因 为 代码 审查 阶段 bug 
的 修复 代价 非常 小 。 除 此 之 外 ， 代 码 审 查 还 有 助 于 建立 高 效 的 团队 ， 提 
高 团队 成 员 之 间 的 协作 能 力 以 及 编码 水 平 ， 有 助 于 路 团队 之 间 知 识 共 
译 。 那 么 ， 团 队 应 该 以 什么 样 的 态度 去 看 竺 代码 审查 呢 ? 


1) 不 要 错误 地 理解 代码 审查 会 的 目的 。 代 码 审查 会 的 首要 目的 是 
提高 代码 质量 ， 找 出 defect 或 者 设计 上 的 不 足 而 非 修复 defect。 也 许 有 人 
会 疑虑 ，defect 不 要 修复 吗 ? 要 ! 但 绝 不 是 在 审查 会 上 ， 这 是 保证 代码 
审查 高 效 的 第 一 个 关键 ， 因 为 时 间 有 限 ， 不 可 能 也 不 允许 在 审查 会 上 去 
讨论 bug 或 者 defect 如 何 修复 ， 所 有 类 似 问题 应 该 记录 下 来 等 会 后 讨论 。 


2) 代码 审查 过 程 不 应 该 有 KPI (Key Performance Indicator) 评价 的 
成 分 。 如 果 将 代码 审查 中 发 现 bug 的 概率 作为 对 开发 人 员 绩 效 考核 的 标 
准 ， 势 必 会 打击 参与 人 员 的 积极 性 ， 有 些 人 可 能 因为 怕 承 担 责任 而 不 愿 
意 直 接 指出 代码 中 的 问题 。 同 时 也 会 引起 被 审查 人 员 的 自我 保护 意识 ， 
当 问 题 发 生 的 时 候 ， 被 审查 者 可 能 更 关注 于 怎么 推 外 问题 而 不 是 静 下 心 
来 解释 问题 产生 的 原因 ， 以 及 如 何 改 进 。 因 此 ， 代 码 审 碍 要 努力 做 到 针 
对 技术 和 问题 本 身 。 


3) 对 管理 层 的 建议 : 除非 经 理 或 者 组 长 真正 参与 到 具体 的 技术 问 
题 ， 人 否则 应 该 尽量 避免 这 些 人 员 参 与 代码 审查 会 ， 因 为 这 些 人 直接 与 员 
工 KPI 评价 挂钩 ， 即 使 申明 不 会 用 bug 或 者 defect 有 发 现 的 数目 来 作为 评价 
标准 ， 但 由 于 这 些 人 号 份 的 特殊 ， 仍 然 可 能 造成 评审 参与 人 员 不 能 诚实 
面 对 代 码 本 身 的 局 面 。 

4) 对 开发 者 的 建议 : 把 代码 审查 当做 一 个 学 习 的 机 会 ， 而 不 要 看 
成 是 浪 履 你 的 时 间 帮 别人 来 解决 问题 。 无 论 你 技术 水 平 的 高 低 ， 阅 读 和 
审查 同行 的 代码 可 以 让 你 学 习 更 优秀 的 设计 和 编码 ， 也 能 让 你 更 快速 地 
知道 如 何 避 免 一 些 糟糕 的 代码 和 设计 上 的 缺陷 。 

有 了 正确 的 态度 ， 还 需要 一 定 的 流程 来 保证 才能 做 到 高 效 的 代码 审 
























































(1) 定位 角色 。 


一 般 来 说 代码 审查 会 上 有 4 类 角色 : 仲裁 者 、 会 议 记 录 者 、 被 评审 
开发 人 员 和 评审 者 。 


1) 仲裁 者 : 也 叫 主 持 人 ， 一 般 由 技术 专家 或 者 资深 技术 人 员 担 
任 。 担 任 该 角色 的 人 员 不 仅 要 技术 精湛 、 业 务 精通 ， 而 且 要 有 全 局 系统 
思维 和 较 好 的 沟通 以 及 领导 能 力 。 他 的 主要 职责 是 控制 会 议 流程 和 时 
间 ， 保 证 会 议 流程 的 高 效 性 ， 同 时 能 够 在 必要 的 时 候 给 予 评审 技术 指 
导 。 因 此 在 评审 过 程 中 如 果 出 现 了 参与 人 员 就 一 个 问题 争论 不 休 的 时 
候 ， 该 角色 应 该 能 够 给 予 及 时 制止 和 指导 性 意见 ， 特 别 要 注意 保护 被 评 
审 人 员 。 在 评审 结束 之 后 ， 仲 裁 者 还 应 该 确保 及 现 的 问题 被 正确 解决 。 


2) 会 议 记录 者 : 及 时 记录 评审 过 程 中 发 现 的 问题 ， 包 括 问 题 的 提 
出 者 、 问 题 描 述 、 问 题 产 生 的 位 置 ， 如 果 有 解决 思路 还 应 该 记录 解决 方 
法 ， 如 果 问 题 暂时 没有 解决 办 法 应 该 记录 下 一 步行 为 ， 如 是 会 后 研究 还 
是 男 外 开会 讨论 等 。 需 要 强调 的 是 ， 在 记录 完 一 个 问题 相关 信息 之 后 ， 
会 议 记录 者 必须 和 被 评审 开发 人 员 确 认 记 录 内 容 ， 以 保证 记录 的 信息 准 
确 无 误 且 被 该 开 友 人 员 认 可 。 


3) 被 评审 开发 人 员 : 一 般 被 评审 开发 人 员 在 评审 开始 的 时 候 应 该 
对 其 代码 有 综合 性 的 介绍 ， 在 评审 者 提出 问题 或 者 质疑 的 时 候 应 该 及 时 
给 出 解释 。 被 评审 开发 人 员 对 其 他 人 提出 的 意见 或 者 问题 要 正确 看 待 ， 
不 要 当做 攻击 ， 记 住 ， 所 有 人 的 目的 都 是 为 了 开发 出 质量 更 高 的 软件 。 
被 评审 开发 人 员 一 般 不 参与 对 代码 的 具体 审查 。 


4) 评审 者 : 除了 以 上 3 类 人 员外 ， 其 余 与 会 的 人 都 称 为 评审 者 ， 评 
审 者 组 成 应 该 是 有 经 验 的 和 经 验 相 对 较 弱 的 人 员 兼 而 有 之 ， 因 为 这 样 的 
0 
能 力 。 

(2) 充分 准备 

在 代码 提交 审查 之 前 ， 代 码 作 者 需要 做 以 下 准备 : 对 代码 进行 自我 

修正 ， 包 括 对 代码 风格 进行 检查 、 添 加 必要 的 注释 、 完 成 必要 的 功能 测 


试 等 ， 提 前 通知 参与 审查 的 人 员 ， 以 便 他 们 能 够 事先 对 代码 框架 有 个 基 
本 了 解 ， 确定 会 议 时 间 和 进程 。 














执行 语句 


1<j is True 


1<] 1s Fasle 


图 7-7 台面 检查 示例 





(3) 合理 使 用 技术 和 工具 


代码 审查 并 不 是 完全 依靠 经 验 的 ， 有 一 些 方法 可 以 遭 循 。 第 见 的 方 
法 和 工具 如 下 。 


中 检查 表 (checklist) : 检查 表 有 利于 有 和 针对" 竹 地 发 现代 码 中 存在 
a ， 如 变量 是 否 初始 化 ， 函 数 调用 的 参数 ， 命 名 是 否 一 致 ， 字 符 串 
是 下 正确 解 碍 0 的 lib， 人 逻辑 操作 符 是 否 正确 ， 
{} 对 是 否 一 致 生 


@ 台 面 检查 (Desk Checking) : 适合 在 编码 早期 对 顺序 执行 的 代码 
进行 检查 ， 手 工 模拟 代码 的 执行 过 程 来 检查 程序 中 潜在 的 问题 。 图 7-7 
所 示 就 是 下 面 的 代码 的 台面 检查 。 





(@IRT (Interleaving Review Technique) : 适合 于 并 发 性 的 代码 或 
者 容错 性 系统 。 更 多 IRT 的 资料 读者 可 以 参考 
https://www.research.ibm.com/haifa Workshops/PADTAD2004/papers/irt_pa 


人 由 代码 审查 工具 :如 Rietveld、review board、Collaborative Code 
Review Tool (CCRT) 等 。 


(4) 控制 评审 时 间 和 评审 内 容 


为 了 保证 效率 ， 一 般 来 说 一 次 评审 时 间 要 尽量 控制 在 45 分 钟 到 1 小 
时 。 研 究 表明 ， 当 人 的 注意 力 集 中 超过 1 小 时 ， 效 率 就 会 急剧 下 降 。 而 
一 次 评审 的 代码 行 数 应 控制 在 200 行 以 内 ， 最 好 不 超过 400 行 。 如 图 7-8 
所 示 描 述 的 就 是 缺陷 发 现 的 密度 与 评审 代码 行 数 之 间 的 关系 。 由 图 可 知 
当 被 评审 的 代码 超过 200 行 时 ， 查 出 缺陷 的 密度 就 会 急剧 下 降 。 
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图 7-8 ”代码 行 数 与 查 出 缺陷 密度 之 间 的 关系 
(5) 关注 技术 层面 ， 对 事 不 对 人 


要 把 重点 放 在 技术 问题 以 及 如 何 解决 上 ， 而 不 是 诸如 代码 风格 《〈 代 
码 风格 当然 重要 ， 但 应 该 在 评审 之 前 就 由 开发 者 对 照 组 织 规定 事先 完 
成 ， 评 审 过 程 附带 指出 一 些 特殊 问题 、 时 间 进 度 之 类 的 非 技 术 层 面 的 
问题 上 。 此 外 ， 评 审 人 员 应 该 对 事 不 对 人 ， 在 评审 过 程 中 要 合理 使 用 一 
些 客观 的 语言 ， 如 “我 没 读 懂 这 段 代 码 的 意思 ?， 或 者 “我 认为 怎样 做 更 
好 ”、 而 不 是 “你 这 代码 写 的 太 烂 了 ”、“ 垃 圾 ”等 带 有 攻击 性 的 语言 。 较 
好 的 方法 是 评审 者 在 评审 的 过 程 中 时 刻 警惕 ;代码 是 不 是 正常 工作 ? 与 
Si 
”思考 法 。 


(6) 记录 问题 ， 退 踩 进一步 行动 

记录 问题 是 为 了 保证 在 评审 会 上 发 现 的 问题 和 缺陷 在 会 后 能 得 到 及 
时 的 修复 。 因 此 会 议 记 录 者 应 该 在 会 后 及 时 将 会 议 记录 发 送 给 相关 人 
员 ， 并 保证 后 续 行 动 都 及 时 实施 。 
(7) 不 要 忽视 附加 的 培训 作用 


评审 是 手段 ， 发 现代 码 缺 陷 ， 提 高 代码 质量 和 团队 人 员 的 编码 水 平 
才 是 目的 ， 因 此 评审 过 程 中 别 忘 了 培训 的 附加 作用 ， 仲 裁 者 应 该 针对 优 
A 
避免 。 


























建议 78: 将 包 发 布 到 PyPI 


建立 项 目 之 后 ， 添 加 了 相应 的 业务 代码 ， 并 通过 测试 之 后 ， 束 可 以 
考虑 发 布 给 下 游 用 户 了 。 如 果 是 项 目 内 部 协作 ， 把 项 目 打 一 个 zip 包 或 
者 tar ball 发 出 去 ， 最 简单 不 过 了 。 不 过 尽管 如 此 简单 ，setuptools 仍 然 提 
供 了 完善 的 支持 。 














>sudo python setup.py sdist --formats=zip,gztar 


metic-1.0... 
arithmetic.py -> arithmetic-1.0 
setup.py -> arithmetic-1.0 


adding "arithmetic-1.0/arithmetic.py' 

adding '"'arithmetic-1.0/PKG-INFO' 

adding 'arithmetic-1.0/setup.py' 

Creating tar archive 

removing "arithmetic-1.0' (and everything under it) 





setuptools 的 sdist 命 令 的 意思 是 构建 一 个 源 代码 发 行 包 ， 它 将 根据 调 
用 setup0 函 数 时 给 定 的 实 参 将 整个 项 目 打 包 《〈 和 压缩 ) 。 根 据 当前 的 平 
人 台 〔 操 作 系 统 ) 不 同 ， 产 出 的 文件 也 是 不 一 样 的 。 一 般 在 MS Windows 
系统 下 ， 产 生 .zip 格 式 的 压缩 包 ， 而 在 GNU Linux 或 Mac OS X 系 统 下 ， 
产生 .tar.gz 格 式 的 压缩 包 。 考 虑 到 最 终 安 装 程序 包 的 用 户 可 能 在 不 同 的 
系统 下 使 用 ， 需 要 产品 指定 〈 或 更 多 ) 格式 的 包 文 件 ， 可 以 使 用 -- 
formats 参 数 。 如 上 列 指定 产生 .zip 格 式 和 .tar.gz 格 式 。 最 终 产生 的 包 文 件 
放 在 .dist 目 录 下 。 











>]1S dist 
arithmetic-1.0.tar.gz arithmetic-1.0.zip 





产生 这 两 个 包 以 后 ， 就 可 以 发 布 给 项 目的 下 游 合 作者 了 。 发 布 方式 
可 以 是 邮件 、FTP， 或 者 直接 使 用 IM 传 送 。 下 游 开 发 者 收 到 后 有 两 种 安 
装 方式 : 一 种 是 解压 缩 ， 然 后 进入 setup.py 文 件 所 在 的 目录 执行 python 
setup.py install 命令 安装 ; 另 一 种 是 使 用 pip 安 装 ， 执 行 pip install 
arithmetic-1.0.tar.gz 即 可 。 


对 于 个 人 项 目 或 者 迷你 团队 而 言 ， 通 过 邮件 、FTP 或 者 IM 发 布 无 可 





厚 非 ， 但 如 果 是 较 大 的 团队 一 起 协作 一 个 项 目 ， 那 么 最 好 是 把 包 发 布 到 
PyPI 上 面 。 可 以 是 pypi.python.org 这 个 官方 的 PyPI， 也 可 以 是 团队 架设 
的 私有 PyPI。 在 这 里 ， 先 讲 一 下 怎么 把 包 发 布 到 官方 的 PyPI。 


其 实 标准 库 distutils 自 吴 已 经 带 有 发 布 到 PyPI 的 功能 ， 那 就 是 register 
和 upload 命 令 。 











$ python setup.py --help-commands 
Standard commands : 


register register the distribution with the Python package index 


upload upload binary package to PyPI 








register 命 令 用 以 在 PyPI 上 面 注册 一 个 包 ， 这 个 包 名 必须 是 尚未 使 用 
过 的 。 在 注册 包 名 之 前 ， 先 在 PyPI 上 注册 一 个 用 户 ， 可 以 通过 PyPI 网 页 
注册 ， 也 可 以 直接 使 用 register 命 令 提 供 的 选项 注册 。 








$ python setup.py register 


We need to know who you are, so please choose either : 
1. use your existing login, 
2. register as a new user 
3. have the server generate a new password for you (and email it to you), or 


4. quit 
Your selection [default 1]: 








上 面 第 2 个 选项 就 是 用 来 注册 新 用 户 的 ， 选 中 之 后 向 导 将 会 指引 用 
户 输入 用 户 名 、 密 码 和 邮箱 等 信息 ， 很 快 就 可 以 注册 完成 ， 在 此 不 展开 
说 了 。 如 果 已 经 有 了 PyPI 账 号 ， 那 么 选择 第 1 个 选项 ， 输 入 用 户 名 和 密 
码 ， 验 证 通过 以 后 ，distutils 向 PyPI 申 请 注册 包 和 名， 一 般 都 能 够 成 功 。 但 
如 果 这 个 包 名 已 经 被 别 的 用 户 使 用 过 了 ， 那 会 引发 一 个 403 错 误 ， 指 出 
你 不 能 把 这 个 包 的 信息 存储 到 PyPI。 





$ python setup.py register -n 
running register 
running check 


Registering arithmetic to http://pypi.python.org/pypi 
Server response (200): OK 





包 名 注册 之 后 ， 就 可 以 把 包 上 传 到 PyPIT 。 


$ python setup.py sdist upload 

running sdist 

running check 

writing manifest file 'MANIFEST' 

creating arithmetic-1.0 

making hard links in arithmetic-1.0... 

hard linking arithmetic.py -> arithmetic-1.0 

hard linking setup.py -> arithmetic-1.0 

Creating tar archive 

removing "arithmetic-1.0' (and everything under it) 
running upload 

Submitting dist/arithmetic-1.0.tar.gz to http://pypi.python.org/pypi 
Server response (200): OK 





上 传 之 后 ， 就 可 以 通知 合作 者 使 用 setuptools/pip 安 装 了 。 





pip install arithmetic 





第 8 半 ”性 能 剖析 与 优化 


“选择 了 脚本 语言 束 要 妨 受 其 速度 "”， 这 人 句 话 在 作 种 程度 上 说 明了 
python 作 为 时 术语 言 在 效率 和 己 能 方面 的 二 个 不 足 之 处 。 但 这 并 没有 你 
想象 的 那么 夸张 ， 也 不 是 说 你 只 能 坐 以 等 疆 。 性 能 与 效率 与 很 多 方面 居 
恩 相 关 ， 如 软件 设计 、 运 行 环境 、 网 络 带 党 、 更 优化 的 代码 等 。 代 码 优 
化 并 不 神秘 ， 它 建立 在 软件 算法 和 人 硬件 体系 结构 等 知识 层面 之 上 ， 有 一 
定 的 方法 可 以 遭 循 。 本 章 将 着 重 从 代码 层面 来 探讨 如 何 提高 Python 的 效 
率 和 性 能 ， 并 重点 分 析 一 些 和 常见 的 优化 方法 和 技巧 。 











建议 79: 了 解 代 码 优化 的 基本 原则 


代码 优化 是 指 在 不 改变 程序 运行 结果 的 前 提 下 使 得 程序 运行 的 效率 
更 高 ， 优 化 的 代码 意味 着 运行 速度 更 快 或 者 占有 的 资源 更 少 。 进 行 代 码 
优化 时 需要 记 住 以 下 几 点 原则 。 


(1) 优先 保证 代码 是 可 工作 的 


Donald Knuth 曾 说 过 ， 过 早 优化 是 编程 中 一 切 “ 罪 恶 * 的 根源 。 很 多 
人 热衷 优 化 ， 一 开始 写 代码 束 奔 着 性 能 这 个 目标 。 但 事实 真相 是 “让 正 
确 的 程序 更 快要 比 让 快速 的 程序 正确 容易 得 多 。” 因 此 优化 的 前 提 是 代 
码 满足 了 基本 的 功能 需求 ， 是 可 工作 的 。 过 早 地 进行 优化 可 能 会 忽视 对 
总 体 性 能 指标 的 把 握 ， 和 忽略 可 移植 性 、 可 读 性 、 内 桶 性 等 ， 更 何况 每 个 
模块 甚至 每 行 优化 的 代码 并 不 一 定 能 够 带 来 整体 运行 性 能 良好 ， 因 为 性 
能 瓶颈 可 能 出 现在 意 想 不 到 的 地 方 ， 如 模块 与 模块 之 间 的 交互 和 通信 
等 ， 在 得 到 整体 视图 之 前 不 要 主 次 颠倒 。 需 要 说 明 的 是 ， 这 并 不 是 不 鼓 
励 你 在 代码 实现 的 过 程 中 去 尝试 更 优 的 实现 方式 ， 在 编码 的 过 程 中 同样 
应 该 遵循 Python 的 哲学 和 本 书 前 面 章 节 所 提倡 的 风格 与 语法 ， 尽 量 选择 
更 好 的 算法 或 者 实现 。 


(2) 权衡 优化 的 代价 


优化 是 有 代价 的 ， 想 解决 所 有 性 能 问题 几乎 是 不 可 能 的 。 从 代码 本 
号 的 角度 来 讲 ， 可 能 面临 着 牺牲 时 间 换 空间 或 者 牺牲 空间 换 时 间 的 所 
择 ; 从 项 目的 角度 来 讲 ， 质 量 、 时 间 和 成 本 这 三 者 之 间 “ 铁 三 角 ” 关 系 不 
会 改变 ， 如 末 性 能 是 权衡 质量 的 一 个 指标 的 话 ， 更 好 的 性 能 意味 着 需要 
更 多 的 时 间 和 人 力 或 者 更 强大 的 硬件 资源 ;从 用 户 的 角度 来 看 ， 根 据 
80/20 法 则 ， 最 终 影 啊 用 户 体验 的 可 能 也 就 是 20% 的 性 能 问题 。 因 此 ， 优 
化 需要 权衡 代价 ， 如 果 在 项 目 时 间 紧 退 的 情况 下 能 够 仅仅 通过 增加 硬件 
资源 就 解决 主要 性 能 问题 ， 不 妨 选择 更 强大 的 部 著 环 境 ， 或 者 在 已 经 实 
现 的 代码 上 进行 修 修补 补 试图 进行 优化 代码 所 耗费 的 精力 超过 重 构 的 代 
价 时 ， 重 构 可 能 是 更 好 的 选择 。 


(3) 定义 性 能 指标 ， 集 中 力量 解决 首要 问题 
你 可 能 曾经 听 到 过 客户 这 样 的 声音 : 我 希望 这 个 功能 反应 更 快 一 



































扩 。 这 很 好 ， 起 码 你 明白 优化 的 目标 所 在 ， 而 不 至 于 像 个 “无 头 人 苍蝇 ”一 
样 抓 不 住 客户 需要 的 方 同 而 导致 最 后 落 个 费力 不 讨好 的 结果 。 但 这 还 不 
够 好 ， 为 什么 ?什么 标准 才 符 合 更 快 一 点 这 个 说 法 呢 ? 更 快 到 确 是 多 
快 ?“ 一 千 个 人 心中 残 有 一 干 个 哈姆雷特 ”我们 必须 制定 出 可 以 衡量 快 
的 具体 指标 ， 比 如 在 什么 样 的 运行 环境 下 《如 网 络 速度 、 硬 件 资源 
等 ) 、 运 行 什么 样 的 业务 啊 应 时 间 的 范围 是 多 少 秒 。 这 里 要 着 重 强调 的 
是 : 精确 ， 可 度量 。 更 快 、 非 常 快 这 些 都 是 描述 性 的 词语 ， 并 不 可 度 
量 ， 不 同 的 人 有 着 不 同 的 衡量 标准 ， 可 能 对 于 一 个 请 求 你 认为 2 秒 内 能 
够 返回 结果 已 经 够 快 了 ， 但 业务 人 员 所 理解 的 够 快 可 能 是 0.5 秒 内 ， 亿 
差 由 此 产生 。 如 果 你 的 客户 并 不 能 提出 专业 精确 的 目标 ， 那 么 相关 需求 
人 员 或 者 技术 人 员 也 一 定 要 引导 和 帮助 客户 《如 运用 SMART 法 则 等 ) 
最 终 达 成 契约 。 另 外 ， 性 能 优化 一 定 要 站 在 客户 和 产品 本 身 的 角度 上 分 
析 而 不 是 开发 人 员 的 角度 上 。 为 什么 ? 因为 客户 才 是 我 们 服务 的 主要 对 
象 ， 他 们 的 想法 才能 代表 最 终 的 需求 。 比 如 开发 人 员 可 能 觉得 安装 的 时 
间 过 长 而 花费 不 少 精力 进行 优化 ， 但 客户 真正 关心 的 可 能 是 在 系统 上 部 
敬一 个 新 的 服务 的 啊 应 时 间 。 因 此 ， 在 进行 优化 之 前 ， 一 定 要 针对 客户 
关心 的 问题 进行 主 次 排列 ， 并 集中 力量 解决 主要 问题 。 


(4) 不 要 忽略 可 读 性 


优化 不 能 以 牺牲 代码 的 可 读 性 ， 甚 至 带 来 更 多 的 副作用 为 代价 。 实 
际 应 用 中 经 党 运行 的 代码 可 能 只 占 一 小 部 分 ， 但 几乎 所 有 代码 都 是 需要 
维护 的 ， 因 此 在 代码 的 可 读 性 、 可 维护 性 以 及 更 优化 的 性 能 之 间 需 要 权 
衡 。 如 果 优 化 的 结果 是 使 代码 变 得 难以 阅读 和 理解 ， 可 能 停止 优化 或 者 
选择 其 他 丛 代 设计 更 好 。 

最 后 需要 说 明 的 是 ， 优 化 无 极限 ， 不 要 陷入 怪圈 ， 什 么 时 候 应 该 优 


化 、 什 么 时 候 应 该 停止 优化 心里 得 有 谱 ， 性 能 较 优 的 代码 确实 很 吸引 
人 ， 但 过 犹 不 及 。 











建议 80: 信 助 性 能 优化 工具 


“ 工 欲 善 其 事 ， 必 先 利 其 器 *"， 好 的 工具 能 够 对 性 能 的 提升 起 到 非常 
关键 的 作用 。 常 见 的 性 能 优化 工具 有 Psyco、Pypy 和 cPython 等 。 本 节 我 
们 将 简单 讨论 前 两 者 ，cPython 性 能 优化 具体 使 用 见 建 议 90 一 节 。 


(1) Psyco 


Psyco 是 一 个 just-in-time 的 编译 器 ， 它 能 够 在 不 改变 源 代 码 的 情况 下 
提高 一 定 的 性 能 ，Psyco 将 操作 编译 成 部 分 优化 的 机 器 码 ， 其 操作 分 成 
三 个 不 同 的 级 别 ， 有 “运行 时 和 “编译 时 ?和 “虚拟 时 ?变量 ， 并 根据 需要 
提高 和 降低 变量 的 级 别 。 运 行 时 变量 只 是 常规 Python 解 释 器 处 理 的 原始 
字 节 人 码 和 对 象 结 构 。 一 旦 Psyco 将 操作 编译 成 机 器 人 码 ， 那 么 编译 时 变量 
就 会 在 机 器 寄存 器 和 可 直接 访问 的 内 存 位 置 中 表示 。 同 时 Python 能 高 速 
缓存 已 编译 的 机 器 码 以 备 以 后 重用 ， 这 样 能 节省 一 点 时 间 。 但 Psyco 也 
有 其 缺点 ， 如 ， 其 本 身 运行 所 占 内 存 较 大 。2012 年 3 月 12 日 ，Psyco 项 目 
主页 上 宣布 Psyco 停 止 维 护 并 正式 结束 ， 由 Pypy 所 接 蔡 。 到 结束 为 止 ， 
Psyco 也 没有 提供 对 Python2.7 版 本 的 文 持 。 对 Psyco 感 兴趣 的 读者 可 以 参 
考 其 主页 (http://psyco.sourceforge.net/) 了 解 更 多 信息 。 








(2) Pypy 


Python 的 动态 编译 器 ， 是 Psyco 的 后 继 项 目 。 其 目的 是 ， 做 到 Psyco 
没有 做 到 的 动态 编译 。Pypy 的 实现 分 为 两 部 分 : 第 一 部 分 “用 Python 实 
现 的 Python”， 这 里 虽然 是 这 么 说 ， 但 实际 上 它 是 使 用 一 个 名 为 RPython 
的 Python 子 集 实现 的 ，Pypy 能 够 将 Python 代 码 转 成 C、.NET、Java 等 语 
言 和 平台 的 代码 ; 第 二 部 分 Pypy 集 成 了 一 种 编译 rPython 的 即时 (JIT) 
编译 器 ， 和 许多 编译 器 、 解 释 嚣 不同， 这 种 编译 器 不 关心 Python 代 人 码 的 
词法 分 析 和 语法 树 ， 因 为 它 是 用 Python 语 言 写 的 ， 所 以 它 直接 利用 
Python 语言 的 Code Object 《Python 字 市 码 的 表示 ) ， 也 就 是 说 ，Pypy 直 
接 分 析 Python 代 码 所 对 应 的 字 节 码 ， 这 些 字 节 人 码 既 不 是 以 字符 形式 也 不 
是 以 某 种 二 进 制 格式 保存 在 文件 中 。 如 图 8-1 所 示 是 针对 同一 段 代 码 分 
别 使 用 Python 和 Pypy 运 行 得 到 的 时 间 消 耗 示意 图 。 


从 图 8-1 中 可 见 看 出 ， 使 用 Pypy 来 编译 和 运行 程序 ， 随 着 运算 规模 
的 扩大 ， 其 效率 显著 提高 。 





时 间 消 耗 


| 
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二 


计算 规模 


图 8-1 Python 与 Pypy 运 行 时 间 比 较 





建议 81: 利用 cProfile 定 位 性 能 瓶 倾 


程序 运行 慢 的 原因 有 很 多 ， 但 真正 的 原因 往往 是 一 两 段 设 计 并 不 那 
么 良好 的 不 起 眼 的 程序 ， 比 如 对 一 系列 元 素 进 行 自 定义 的 类 型 转换 等 。 
程序 性 能 影响 往往 符合 80/20 法 则 ， 即 20% 的 代码 的 运行 时 间 占 用 了 80% 
的 总 运行 时 间 (实际 上 ， 比 例 要 夸张 得 多 ， 通 常 是 几 十 行 代码 占用 了 
959% 以 上 的 运行 时 间 ) ， 所 以 如 何 定位 瓶 氏 所 在 很 有 难度 ， 靠 经 验 是 很 
难 找 出 造成 性 能 瓶颈 的 代码 的 。 这 时 候 ， 我 们 需要 一 个 工具 帮忙 ， 下 文 
通过 cProfile 分 析 相 关 的 独立 模块 ， 基 本 上 解决 了 定位 性 能 瓶颈 问题 。 


profile 是 Python 的 标准 库 。 可 以 统计 程序 里 每 一 个 函数 的 运行 时 
间 ， 并 且 提 供 了 多 样 化 的 报表 ， 而 cProfile 则 是 它 的 C 实 现 版 本 ， 痢 析 过 
程 本 身 需要 消耗 的 资源 更 少 。 所 以 在 Python 3 中 ，cProfile 代 替 了 
profile， 成 为 默认 的 性 能 剖析 模块 。 使 用 cProfile 来 分 析 一 个 程序 很 简 
单 ， 以 下 面 一 个 程序 为 例 : 




















um = 0 
for i in range(100): 
m += 工 


return Sum 
"main_" 





name_ _ == 
foo() 





现在 要 用 profile 分 析 这 个 程序 。 很 简单 ， 把 这 程序 块 改 为 如 下 : 





了 name, == "__main 
import cprofile 
cProfile.run("foo()") 








我 们 仪 仅 是 import 了 cProfile 这 个 模块 ， 然 后 以 程序 的 入 口 函 数 名 为 
参数 调用 了 cProfile.run 这 个 函数 。 程 序 运行 的 输出 如 下 : 





5 function calls in 0.143 CPU seconds ordered by: standard name 

ncalls tottime percall cumtime percall filename:lineno(function) 

@.， 0.000 0.000 0.000 :0(range 

0.143 0.143 0.143 0.143 :0(setprofile) 

a 0.000 <string>:1(? 

0.000 0.000 0.000 0.000 prof1.py:1(foo) 
0.000 0.000 0.143 0.143 profile:0(foo()) 
0.000 0.000 profile:0(profiler) 


oprpppp 
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© 
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© 
© 
© 








上 面 显 示 了 prof1.py 里 函数 调用 的 情况 ， 根 据 数 据 我 们 可 以 清楚 地 
占用 了 100% 的 运行 时 间 ，foo0 函 数 是 这 个 程序 里 名 副 其 


除了 用 这 种 方式 ，cProfile 还 可 以 直接 用 Python 解 释 器 调用 cProfile 模 
块 来 剖析 Python 程 序 。 如 在 命令 行 界面 输入 如 下 命令 : 





python -m cProfile prof1.py 





产生 的 输出 跟 直 接 修改 脚本 调用 cProfile.run() 函 数 有 一 样 的 功效 。 


cProfile 的 统计 结果 分 为 ncalls、tottime、percall、cumtime、 
percall、filename:lineno(functiom) 等 若干 列 ， 如 表 8-1 所 示 。 


表 8-1 cProfile 的 统计 结果 以 及 各 项 意义 








统计 项 意 义 
ncalls 明 数 的 被 调用 次 
tottime 胃 灼 总 计 运 行 时 间 ， 不 合 调 用 的 函数 运行 时 间 
percall 大 数 运行 一 次 的 平均 时 间 ， 等 于 tottime/ncalls 
cumtime 前 数 总 计 运 行 时 间 ， 含 调用 的 函数 运行 时 间 | 
percall 肖 数 运行 一 次 的 平均 时 间 ， 等 于 cumtime/ncalls 
filename:lineno(function) 吸 数 所 在 的 文件 名 、 卫 数 的 行 扎 、 阴 数 名 


通常 情况 下 ，cProfile 的 输出 都 直接 输出 到 命令 行 ， 而且 默认 是 按照 
文件 名 排序 输出 的 。 这 就 给 我 们 造成 了 障碍 ， 我 们 有 时 候 希 望 能 够 把 输 
出 保存 到 文件 ， 并 且 能 够 以 各 种 形式 来 查看 结果 。cProfile 人 简单 地 支持 了 
一 些 需 求 ， 我 们 可 以 在 cProfile.runO0 函 数 里 再 提供 一 个 实 参 ， 就 是 保存 
输出 的 文件 名 。 同 样 ， 在 命令 行 参数 里 ， 我 们 也 可 以 加 多 一 个 参数 ， 用 


来 保存 cProfile 的 输出 。 


cProfile 解 决 了 我 们 的 对 程序 执行 性 能 剖析 的 需求 ， 但 还 有 一 个 需 
求 : 以 多 种 形式 查看 报表 以 便 快 速 定 位 瓶颈 。 我 们 可 以 通过 pstats 模 块 
的 男 一 个 类 Stats 来 解决 。Stats 的 构造 函数 接受 一 个 参数 一 一 就 是 cProfile 
的 输出 文件 名 。Stats 提 供 了 对 cProfile 输 出 结果 进行 排序 、 输 出 控制 等 功 
能 。 如 我 们 把 前 文 的 程序 改 为 如 下 : 











# 

EE name, == "main __": 
import cProfile 
cProfile.run("foo()", "prof.txt") 


import pstats 
p = pstats.Stats("prof.txt") 
p.sort_stats("time").print_stats() 





引入 pstats 之 后 ， 将 cProfile 的 输出 按 函 数 占 用 的 时 间 排 序 ， 输 出 如 





Sun Jan 14 00:03:12 2007 prof .txt 
5 function calls in 0.002 CPU seconds 
ordered by: internal time 
ncalls tottime percall cumtime percall filename:lineno(function) 
0.00 0.002 0.002 0 


2 .002 :0(setprofile) 
1 0.000 0.000 0.002 0.002 profile:0(foo()) 
和 0.000 0.000 0.000 0.000 G:/prof1.py:1(foo) 
0.000 0.000 0.000 0.000 <string>:1(?) 
于 0.000 0.000 0.000 0.000 :0(range) 
0 0.000 0.000 profile:0(profiler) 





Stats 有 硝 干 个 函数 ， 这 些 函 数组 合 能 输出 不 同 的 cProfile 报 表 ， 功 能 
非常 强大 ， 如 表 8-2 所 示 。 下 面 简单 地 介绍 一 下 这 些 函 数 。 


表 8-2 Stats 函数 以 及 对 应 作用 


画 数 冰 数 的 作用 


strip_dirs() 用 以 除去 文件 名 前 名 的 路 径 信 息 
add(filename,[*"]) 把 profile 的 输出 文件 加 入 Stats 实例 中 统计 
dump stats(flename) 把 Stats | CL 后 果 保存 到 文件 

sort stats(key,[*"]) 最 重要 的 一 个 函数 ， 用 以 排序 profile 的 输出 
reverse order() 把 Sta 和 数据 反 厅 重 排 

print stats([restriction,"]) 把 Stats 报表 输出 到 stdout 

print callers([restriction,"]) 输出 调用 了 指定 的 函数 的 相关 信息 

print callees([restriction,""]) 输出 指定 的 函数 调用 过 的 函数 的 相关 信息 





这 里 最 重要 的 函 数 就 是 sort_ stats 和 print stats， 通 过 这 两 个 函数 我 们 
几乎 可 以 用 适当 的 形式 浏览 所 有 的 信息 了 。 下 面 来 详细 介绍 一 下 。 


1) sort_stats() 接 收 一 个 或 者 多 个 字符 串 参 数 ， 如 time、name 等 ， 表 
明 要 根据 哪 一 列 来 排序 。 这 相当 有 用 ， 例 如 我 们 可 以 通过 用 time 为 key 
来 排序 得 知 最 消耗 时 间 的 函数 ， 也 可 以 通过 cumtime 来 排序 ， 获 知 总 消 
耗 时 间 最 多 的 函数 。 这 样 我 们 优化 的 时 候 就 有 了 针对 性 ， 可 以 做 到 事 半 
功 倍 了 。 


Sort_stats 可 接受 的 参数 如 表 8-3 所 示 。 
表 8-3 sort_stats 可 接受 参数 列表 





参数 参数 对 应 的 意义 


ncalls 祝 调用 次 数 

cumulative 卫 数 运行 的 电 时 间 

外 文件 名 

module 可 块 名 

pealls 向 单 洞 用 统计 (兼容 旧版 ， 未 统计 汗 归 洞 用 ) 
line 人 

name 图 数 名 

坦 Name, file, line 

stdname 标准 函数 名 

time 隔 数 内 鄞 运行 时 间 (不 计 调用 子 函数 的 时 间 ) 


2) print_stats 输 出 最 后 一 次 调用 sort_stats 之 后 得 到 的 报表 。 
print_stats 有 多 个 可 选 参数 ， 用 以 筛选 输出 的 数据 。print_stats 的 参数 可 
以 是 数字 也 可 以 是 Perl 风 格 的 正则 表达 式 。 相 关 的 内 容 通 过 其 他 渠道 了 
解 ， 这 里 就 不 详 述 啦 。 仅 举 以 下 3 个 例子 : 








brint statst™ Li™ "foo:™) 





这 个 语句 表示 将 stats 里 的 内 容 取 前 面 的 10%， 然 后 再 将 包含 “foo:” 这 
个 字符 目的 吉 果 输出 。 





print stats( "too: Tey 





这 个 语句 表示 将 stats 里 的 包含 “foo:” 字 符 串 的 内 容 的 前 10% 输 出 。 





print_stats(10) 





这 个 语句 表示 将 stats 里 前 10 条 数据 输出 。 


实际 上 ，profile 输 出 结果 的 时 候 相 当 于 如 下 调用 了 Stats 的 函数 : 





p.strip_dirs().sort_stats(-1).print_stats() 





其 中 sort_stats 函 数 的 参数 是 -1， 这 也 是 为 了 与 旧版 本 兼容 而 保留 
的 。sort_stats 可 以 接受 -1、0、1、2 之 一 ， 这 4 个 数 分 别 对 
应 “stdname” “calls”、“time” 和 “cumulative”。 但 如 果 你 使 用 了 数字 为 参 
数 ， 那 么 pstats 只 按照 第 一 个 参数 进行 排序 ， 其 他 参数 将 被 忽略 。 


除了 编 编 程 接口 外 ，pstats 还 提供 了 友好 的 命令 行 交互 环境 ， 在 命 
令 行 执 行 python-m pstats 就 可 以 进入 交互 环境 ， 在 交互 环境 里 可 以 使 用 
read 或 add 指 令 读 入 或 加 载 剖 分 结果 文件 ，stats 指 令 用 以 查看 报表 ， 
callees 和 callers 指 令 用 以 碍 看 特定 函数 的 被 调用 者 和 调用 者 。 如 图 8-2 所 
示 是 pstats 的 截图 ， 标 识 了 它 的 基本 使 用 方法 。 








oC WINNT'SYystema2\cmd, exe - Python 


IC:NDocuments and SettingsNdministratdr>python -m pstats | 运行 pstats 


je lcome to the vrofile statistics hpowsEF- 
在 0% 提示 符 后 输入 help 指令 查看 帮助 


Documented commands (type help 《topic>): 





read H:\laiscode\a_star\astar.prof |) 读 入 部 分 结果 - 件 
LESEEESSTIILE 2 打印 表 ， 只 畏 出 10% 的 国 数 
TIRSNSTIPDFOT 


Wed Jan 39 16:49:12 2008  H:\laiscode\a_s 


99693 function calls in 1.893 CPU seconds 报表 内 容 


Random listing order was used 
List reduced from 38 to 4 due to restriction <@.18000000000000801> 


ncalls tottime percall cumtime percall filename:lineno function) 
5713 8.723 9.000 0.723 8.999 H:\laiscode\a_star\a_star.py:156 dn 
olle_in_close> 
33818 6.1b00 0.060 0.166 6.6000 :0Csqrt) 
1 0.009 4d.080 1.8987 1.887 H:\laiscode\a_star\a_star.py:2Cmo 
dlle >> 
1 08.004 0.004 1.892 1.892 ;Bexecfile》 


USEEESSTIL 要 中 TAR 本 1 出 4 





图 8-2 ”pstats 输 出 信息 截图 


如 果 我 们 某 天 心血 来 潮 ， 想 知道 向 list 里 添加 一 个 元 素 需 要 多 少时 
则 ， 或 者 想 知 道 抛 出 一 个 异常 需要 多 少时 则 ， 那 使 用 profile 就 好 像 用 牛 
刀 杀 鸡 了 。 这 时 候 一 般 我 们 先 手动 写 如 下 一 段 代 码 : 





import time 


def profile(): 
bgn = time.time() 
for i in xrange(100000): 
[].append(1) 
return time.time() - bgn 
print profile() 








为 了 测定 一 条 语句 ， 写 了 好 几 条 代码 ， 真 的 让 人 汗颜 。 更 好 的 选择 
是 timeit 模 块 。 
timeit 除 了 有 非常 友好 的 编程 接口 ， 也 同样 提供 了 友好 的 命令 行 接 


首先 来 看 看 编程 接口 。timeit 模 块 包含 一 个 类 Timer， 它 的 构造 函数 
I 下 : 








class Timer( [stmt='pass' [, setup='pass' [, timer=<timer function>]]]) 





stmt 参 数 是 字符 串 形式 的 一 个 代码 段 ， 这 个 代码 段 将 被 评测 运行 时 
间 ; setup 参 数 用 以 设置 stmt 的 运行 环境 ，timer 可 以 由 用 户 使 用 自 定义 精 
度 的 计时 函数 。 


timeit.Timer 有 3 个 成 员 函 数 ， 简 单 介 绍 如 下 : 





timeit( [number=1000000]) 





timeit() 执 行 一 次 Timer 构 造 函 数 中 的 setup 语 句 之 后 ， 就 重复 执行 
number 次 stmt 语 句 ， 然 后 返回 总 计 运 行 消耗 的 时 间 。 





repeat( [repeat=3 [, number=1000000]]) 





repeat() 函 数 以 number 为 参数 调用 timeit 疯 数 repeat 次 ， 并 返回 总 计 运 
行 消耗 的 时 间 。 





print_exc( [file=None]) 





print_exc0 函 数 用 以 代 蔡 标准 的 tracback， 原 因 在 于 print_excO 会 输 
出 错 行 的 源 代码 。 如 : 





>>> t = timeit.Timer("t = foo()/n;print t") 
>>> t.timeit() 
Traceback (most recent call last): 
File "<pyshell#12>", line 1, in -toplevel- 
下 time eit() 
File "E:/Python27/1lib/timeit.py", line 158, in timeit 
return self.inner(it, self.timer) 
File "<timeit-src>", line 6, in inner 


foo() 
NameError: global name 'foo' is not defined 





在 这 里 NameError 有 点 让 人 迷惑 ，foo 未 定义 到 底 是 来 自 被 timeit 的 那 
ee 用 timeit 的 代码 本 身 呢 ?这 个 场景 就 是 print_exc() 函 数 的 用 
让 之 地 地 s 





>>> try: 
t.timeit() 
except: 
t.print_exc() 
Traceback (most recent call last): 
File "<pyshell#17>", line 2, in ? 
File "“E:/Python27/lib/timeit.py", line 158, in timeit 
return self.inner(it, self.timer) 
File "<timeit-src>", line 6, in inner 


Et foo() 
NameError: global name 'foo' is not defined 





可 以 看 到 traceback 里 原来 的 foo() 变 成 了 整 行 代码 t=foo()， 这 样 丰 富 
的 信息 能 够 加 速 定位 错误 。 


除了 可 以 使 用 timeit 的 编程 接口 外 ， 我 们 也 可 以 在 命令 行 里 使 用 
timeit， 非 常 方 便 。 





python -m timeit [-n N] [-r N] [-sS] [-t] [-c] [-h] [statement ...] 





其 中 参数 的 定义 如 下 : 
:-n N/--number=N，statement 语 名 执行 的 次 数 ， 


-rT N/--repeat=N， 和 重复 多 少 次 调用 timeit()， 默 认为 3， 


.-S S/--setup=S， 用 以 设置 statement 执 行 环 境 的 语句 ， 默 认 
为 “pass”。 


-t/--time， 计 时 消 数 ， 除 了 Windows 平 台 外 默认 使 用 time.time0) 巴 
数 。 


'-C/--clock， 计 时 函数 ，Windows 平 台 默 认 使 用 time.clockO 函 数 。 
.-V/--verbose， 输 出 更 大 精度 的 计时 数值 。 
:-h/--heljp， 人 简单 的 使 用 帮助 。 


小 巧 实 用 的 timeit 强 藏 了 无 限 的 潜能 等 待 你 去 发 据 。 如 本 节 开 始 的 
例子 可 以 使 用 一 句 命令 行 命令 搞定 。 








$ pytho “0 abhe A 
1000000 a ss ie Et of ec per loop 





建议 82: 使 用 memory_profiler 和 objgraph 齐 析 内 存 
使 用 


Python 还 提供 了 一 些 工 具 可 以 用 来 得 看 内 存 的 使 用 情况 以 及 退 踩 内 
存 泄露 (如 memory_profiler、objgraph、cProfile、PySizer 及 Heapy 
等 ) ， 或 者 可 视 化 地 显示 对 象 之 间 的 引用 《如 objgraph) ， 从 而 为 发 现 
内 存 问 题 提 供 更 直接 的 证 据 。 本 市 最 后 我 们 再 来 看 看 memory_profiler 和 
objgraph 这 两 个 工具 的 使 用 。 





(1) memory_profiler 


安装 memory_profiler 可 以 使 用 命令 easy_install-U memory_profiler 或 
者 pipinstall-U memory_profiler， 也 可 进行 源码 安装 。 需 要 注意 的 是 ， 在 
Windows 平 台 上 需要 先 安 装 依赖 包 psutil。memory_profiler 的 使 用 非常 简 
单 ， 在 需要 进行 内 存 分 析 的 代码 之 前 用 @profile 进 行 装饰 ， 然 后 运行 命 
令 python-m memory_profiler 文 件 名 ， 便 可 以 输出 每 一 行 代 码 的 内 存 使 用 
以 及 增长 情况 。 








import memory_profiler 
@profile 
def fibonacci(n): 





以 代码 memory_profiler_test.py 为 例 ， 输 出 列 分 别 对 应 为 行 号 、 内 存 
使 用 情况 、 内 存 增长 情况 以 及 行 所 对 应 的 内 容 。 如 下 所 示 : 








Line # Mem usage Increment Line Contents 
@profile 

8.648 MB 0.000 MB def fibonacci(n): 
11.500 MB 2.852 MB if nes ae: 

return -1 
11.500 MB 0.000 MB elif hn <= 1: 
11.500 MB 0.000 MB return 1 
11.500 MB 0.000 MB else: 
11.500 MB 0.000 MB return fibonacci(n -1) + fibo 


nacci(n -2) 





更 多 关于 memory_profiler 的 信息 可 以 参考 
https://pypi.python.org/pypi/memory_profiler。 


(2) Objgraph 


Objgraph 的 安装 非常 简单 ， 可 以 使 用 命令 pip install objgraph， 或 者 
直接 从 https://pypi.python.org/pypi/objgraph 下 载 进行 源码 安装 。Objgraph 
的 功能 大 致 可 以 分 为 以 下 3 类 : 


统计。 如 objgraph.count(typename[，objects]) 表 示 根 据 传 入 的 参数 显 
示 被 gc 跟踪 的 对 象 的 数目 ; 
objgraph.show_most_common_types([limit=10, objects]) 表 示 显 示 名 用 类 型 


对 应 的 对 象 的 数目 。 


.定位 和 过 滤 对 象 。 如 objgraph.by_type(typename[，objects]) 表 示 根 据 
传 入 的 参数 显示 被 gc 跟踪 的 对 象 信息 ; objgraph.at(addr) 表 示 根 据 给 定 的 
地 址 返回 对 象 。 


' 授 历 和 显示 对 象 图 。 如 objgraph.show_refs(objs， max_depth=3， 
extra_ignore=(), filter=None, too_many=10, highlight=None, 
filename=None，extra_info=None, refcounts=False]) 表 示 从 对 象 objs 开 始 显 
示 对 象 引用 关系 图 ;objgraph.show_backrefs(objsl, max_depth=3, 
extra_ignore=(), filter=None, too_many=10, highlight=None, 


filename=None，extra_info=None，refcounts=False]) 表 示 显 示 以 objs 的 引用 
作为 结束 的 对 象 关 系 图 。 


更 多 关于 objgraph 使 用 的 API 文 档 参 见 
http:/mg.pov.lVobjgraphyobjgraph.html。 下 面 来 看 使 用 objgraph 的 两 个 简 
单 的 例子 。 其 中 第 一 个 例子 生成 对 象 的 引用 关系 图 ， 第 二 个 显示 不 同类 
型 对 象 的 数目 。 


list 


3 items 





3 2 
图 8-3 ”对 象 x 的 引用 关系 图 


, 1) 生成 对 象 x 的 引用 关系 图 。 生 成 的 关系 图 如 图 8-3 所 示 。 具 体 代 
码 如 下 : 





Sn nport nigraph 
>> [ a 


06 show_ LT filename='test.png') 





2) 显示 和 常用 类 型 不 同类 型 对 象 的 数目 ， 限 制 输出 前 3 行 。 代 码 如 
下: 





>>> objgraph. show_most_common Re = 3) 
wrapper_descriptor 103 
function 656。 
builtin_function_or_method 615 





建议 83: 努力 降低 算法 复杂 上 度 


同一 问题 可 用 不 同 算法 解决 ， 而 一 个 算法 的 优 劣 将 直接 影响 程序 的 
效率 和 性 能 。 算 法 的 评价 主要 从 时 间 复 杂 度 和 空间 复杂 上 度 来 考虑 。 空 间 
复杂 上 度 的 分 析 相 对 来 说 要 简单 ， 并 且 在 当前 的 计算 硬件 资源 发 展 形势 
下 ， 对 空间 复杂 度 的 关注 远 没 有 时 间 复 杂 度 高 。 因 此 降低 算法 的 复杂 度 
主要 集中 在 对 其 时 间 复 杂 度 的 考量 ， 本 章 侧重 考虑 时 间 复 杂 度 。 算 法 的 
时 间 复 杂 上 度 是 指 算法 需要 消耗 的 时 间 资 源 ， 和 锦 使 用 大 写字 母 O 表 示 。 如 
插入 排序 的 时 间 复 杂 度 为 Oo2)， 人 快速 排序 的 最 坏 运行 时 间 是 On2)， 但 
是 平均 运行 时 间 则 是 Oo log n)。 同 一 算法 对 应 的 不 同 代 人 码 实现 的 性 能 3 
异 可 能 仅仅 体现 在 其 系数 上 ， 但 数量 级 上 仍然 在 同一 水 平 ， 但 不 同时 间 
复杂 度 的 算法 随 独 计算 规模 的 扩大 带 来 的 性 能 差别 则 较为 明显 。 下 面 古 
算法 时 间 复 杂 度 大 0 的 排序 比较 : 


O(1)<O(log* n)<O(n)<O(n log n)<O(n ’)<O(c ")<O(n!)<Omn ") 


因此 对 算法 改进 的 目的 是 尽量 往 时 间 复 杂 度 较 低 的 O 靠 近 。 要 降低 
算法 的 复杂 度 ， 首 先 要 对 算法 复杂 度 进行 分 析 。 算 法 分 析 建 立 在 一 定 的 
假设 前 提 上 : 即 一 台 给 定 的 计算 机 执行 每 一 条 指令 的 时 间 是 确定 的 ， 因 
此 ， 对 于 获取 字典 中 某 个 key 对 应 的 值 ， 其 时 间 复 杂 度 为 0(1)， 查 找 列 
表 中 某 个 元 素 ， 其 时 间 复 杂 上 度 最 优 为 0(1)， 最 坏 的 情况 为 O(n)。 下 面 的 
示例 中 用 于 求 两 个 列表 交集 ， 即 使 函数 中 存在 条 件 分 文 ， 虽 然 计 部 分 运 
算 的 时 间 复 杂 度 为 O(1)， 但 else 部 分 需要 循环 人 裔 历 两 个 列表 ， 其 时 间 复 
杂 度 为 O(n2)， 因 此 最 终 的 算法 复杂 度 为 O(n2)。 






















































































result = 
if len(list1)<5: # 
时 间 复 杂 度 为 0(1) 
print 11gti 
Glen: 
时 间 复 杂 度 为 0(n2) 
for item in list1: 
if item in list2: 
result[item] = True 
return result.keys() 


需要 特别 说 明 ， 算 法 的 复杂 度 分 析 的 粒度 非常 重要 ， 其 前 提 一 定 是 
粒度 相同 的 指令 执行 时 间 近 似 ， 千 万 不 能 将 任意 一 行 代 码 直 接 当 做 O(H) 
进行 分 析 。 例 如 上 面 的 例子 中 如 果 有 其 他 函数 再 调用 intersection1， 纵 然 


在 调用 函数 中 只 有 一 行 代码 ， 该 行 代码 的 时 间 复 杂 度 仍然 要 按照 OO2) 
计算 。 另 外 ， 算 法 复杂 度 分 析 建 立 在 同一 级 别 语言 实现 的 基础 上 ， 如 果 
Python 代码 中 含有 C 实 现 的 代码 ， 千 万 不 能 将 两 者 混在 一 起 进行 评 佑 。 

ee 思想 和 方法 ， 读 者 可 以 查看 数据 结构 与 算法 相关 资 





Python 各 见 数 据 结 构 基 本 操作 的 时 间 复 杂 度 如 表 8-4 所 示 。 
表 8-4 币 见 数据 结构 基本 操作 的 时 间 复 杂 度 


| 


追加 、 取 元 系 的 但 ， 给 东 个 元 系 赋 人 i 0 
插入、 删除 某 个 元 素 ， 移 代 操作 On) 


set 
一 人 O(min(len(s), len(?) O(len(s) * len() 
EE | 呈 


获取 修改 元 素 的 从， 删除 pe O(n) 
和 迭代 操作 O(n) 
人 列 、 出 列 (包括 左边 出 入 列 ) 0 


list 





删除 元 系 O(n) 





建议 84: 竺 握 循环 优化 的 基本 技巧 


循环 的 优化 应 遵循 的 原则 是 尽量 减少 循环 过 程 中 的 计算 量 ， 多 重 御 
环 的 情形 下 尽量 将 内 层 的 计算 提 到 上 一 层 。 


1) 减少 循环 内 部 的 计算 。 下 面 两 个 示例 实现 的 是 同一 功能 ， 但 提 
倡 使 用 第 二 种 循环 实现 ， 因 为 第 一 种 循环 中 d=math.sqrt(y) 位 于 循环 内 
部 ， 每 次 循环 过 程 中 都 会 重新 计算 一 这， 无 形 中 增加 了 系统 开销 。 测 试 
结果 表明 ， 第 二 种 运算 的 计算 速率 比 第 一 种 运算 的 速率 快 40% 一 609%6。 











示例 一 : 





示例 二 : 





d=math.sqrt(y) 
for i in range(iter): 
本 





2) 将 显 式 循环 改 为 隐 式 循环 。 假 设 求 等 和 数列 1，2.……， n 的 和 ， 
可 以 直接 通过 如 下 循环 来 计算 : 





Sum = SUmM+1 


也 可 以 直接 写 出 得 到 计算 结果 的 值 : nx*(n+1)/2。 显 然 直接 计算 表达 
式 的 值 效 率 更 高 ， 程 序 中 如 果 有 类似 的 情形 ， 可 以 将 显 式 循环 改 为 隐 
式 。 当 然 这 可 能 会 带 来 另 一 个 负面 影响 : 牺牲 了 代码 的 可 读 性 。 因 此 这 
种 情况 下 清晰 、 恰 当 的 注释 是 非常 必要 的 。 


3) 在 循环 中 尽量 引用 局 部 变量 。 在 命名 空间 中 局 部 变量 优先 搜 




















索 ， 因 此 局 部 变量 的 查询 会 比 全 局 变量 要 快 ， 当 在 循环 中 需要 多 次 引用 
某 一 个 变量 的 时 候 ， 尽 量 将 其 转换 为 局 部 变量 。 下 面 的 例子 中 如 果 使 用 
示例 二 代 蔡 示例 一 ， 性 能 将 提高 10% 一 159%。 














x = [10,34,56,78] 
def f(x): 








r in xrange(len(x)): 
x[i] = math.sin(x[i]) 
retur 
def g(x): 
loc_ math.sin 
kg in xrange(len(x)): 
x[i] = loc_sin(x[i]) 





4) 关注 内 层 舱 套 循 环 。 在 多 层 舱 套 循环 中 ， 重 点 关注 内 层 舱 套 循 
环 ， 尽 量 将 内 层 循 环 的 计算 往 上 层 移 。 如 下 面 的 示例 一 中 ，v1 提 在 第 二 
层 循环 for j in range(len(v2)) 时 针对 每 个 ij 其 值 保持 不 变 ， 因 此 可 以 在 外 层 
循环 中 使 用 临时 变量 蔡 代 而 不 是 每 次 都 重新 计算 ， 如 示例 二 所 示 。 





for i in range(len(v1)): 
for j in range(len(v2 
X = v1 


(v2)): 
[i] + v2[j] 





示例 二 : 





for i in range(len(v1)): 
v1ii = v1i[i] 
for j in range(len(v2)) 
x = vii + v2[j] 





建议 85: 使 用 生成 右 提 高 效率 


韭 波 那 契 数列 相信 大 家 都 不 卫生 ， 这 是 常见 的 编程 题目 ， 也 是 很 多 
书籍 中 喜欢 引用 的 例子 。 我 们 这 里 也 不 免费 于 俗套 ， 就 以 这 个 例子 开场 
吧 。 裴 波 那 外 是 一 个 简单 的 递归 数列 ， 数 列 满足 这 样 的 规律 : 除了 前 两 
个 数 ， 任 何其 他 数 都 可 以 由 其 前 面 两 个 数 相 加 得 到 ， 即 f(N)=f(N-1)+f(N- 
2)，n>2。Python 中 有 多 种 方法 实现 这 个 数列 ， 我 们 来 看 其 中 的 一 种 。 


>>> def ee 


while i < n: 
f° RE St appe nd(b) 
= ba 


不 借助 中 和 六 





etu n fo bl 3 


> print fab(4) 
于 1，2，3] 





想 一 想 ， 上 面 的 例子 有 没有 更 好 的 实现 方法 昵 ? 显然 有 ! 在 介绍 具 
体 实现 之 前 我 生 先 来 了 久生 成 器 的 有 关 知 识 ; 


生成 喜 的 语法 在 Python2.2 中 束 引 入 了 ， 但 实际 应 用 过 程 中 还 是 有 人 
不 会 选择 使 用 它 ， 特 别 是 有 过 其 他 语言 基础 的 ， 主 要 是 思维 上 难以 转换 
过 来 。 生 成 器 的 概念 其 实 非常 简单 ， 如 果 一 个 函数 体 中 包含 有 yield 语 
句 ， 则 称 为 生成 器 〈generator) ， 它 是 一 种 特殊 的 迭代 器 〈iterator) ， 
也 可 以 称 为 可 迭代 对 象 〈iterable) 。 可 迭代 对 象 、 迭 代 器 、 生 成 器 这 三 
者 之 间 的 关系 可 以 简单 地 表示 成 如 图 8-4 所 示 的 形式 。 









Iterables: 包含 有 ”getitem (人 0) 或 者 iter 0 方法 的 
数据 容 兹 对 象 








Iterator: 包 含有 next0 方 法 和 _iter_ 人 0 方法 







Generator: 包 合 有 yield 语句 的 汶 数 ， 
拥有 与 进 代 展 类 似 的 行为 







图 8-4 可 和 迭代 对 象 、 迭 代 器 、 生 成 器 三 者 之 间 的 关系 


对 生成 器 的 调用 会 返回 一 个 迭代 器 ， 使 用 next() 方 法 可 以 获取 下 一 
个 元 素 或 者 抛 出 StopIteration 异 常 。 





>>> def mygen(x): 
Rs for i in range(x): 
yield i 
>>> d = mygen(1) 
# 





>>> 
生成 器 对 象 ， 拥 有 iter() 
和 next() 


法 
<generator object mygen at OQx005162BO> 
>>> d.next() 





实际 上 当 需 要 在 循环 过 程 中 依次 处 理 一 个 序列 中 的 元 素 的 时 候 ， 就 
应 该 考虑 生成 器 。 当 然 ， 要 深入 理解 生成 器 ， 必 须 透 彻 理解 yield 语 句 。 
yield 语 句 与 return 语 句 相 似 ， 当 解释 器 执行 过 到 yield 的 时 候 ， 函 数 会 日 
动 返 回 yield 语 句 之 后 的 表达 式 的 值 。 不 过 与 return 不 同 的 是 ，yield 语 句 
在 返回 的 同时 会 保存 所 有 的 局 部 变量 以 及 现场 信息 ， 以 便 在 迭代 器 调用 
next() 或 者 send() 方 法 的 时 候 还 原 ， 而 不 是 直接 交 给 垃圾 回收 器 《return() 


方法 返回 后 这 些 信 息 会 被 垃圾 回收 器 处 理 ) 。 这 样 就 能 够 保证 对 生成 器 
的 每 一 次 欠 代 都 会 返回 一 个 元 素 ， 而 不 是 一 次 性 在 内 存 中 生成 所 有 的 元 
素 。 自 Python2.5 开 始 ，yield 语 句 变 为 表达 式 ， 可 以 直接 将 其 值 赋 给 其 他 
变量 ， 如 x=(yield y)。 结 合 一 个 例子 来 看 yield 语 句 在 生成 器 函数 调用 的 











时 候 执 行 状态 ， 下 面 的 函数 代表 数列 1，-3，5，-7，9，.……. 
>>> def 站 二 
print "begin: 
a =1.0) n=1 
print "while beg 
。 hile(1) 
ee print "yield a dat 
A yield m/ 
-0 = m+2 
= n* -1 
和 print "end" 
>>> 





上 面 的 代码 用 状态 机 可 以 表示 为 如 图 8-5 所 示 的 形式 。 状 态 机 中 状 
态 1 表 示 从 函数 定义 到 标注 1 处 的 所 有 语句 的 集合 ， 状 态 2 表示 标注 2 的 语 
tN 0 
| 结 次 铂 ] 。 











遇 到 Vield 语 名 图 数 
循环 条 件 判 断 返回 并 保存 现场 
第 一 次 调用 
d.next() 






d.next() 


图 8-5 “示例 程序 的 状态 机 形式 的 表示 





运行 上 面 的 程序 你 会 惊讶 地 发 现 ， 即 使 while 中 的 条 件 永 远 为 真 ， 
代码 也 不 会 陷入 无 限 循环 的 状态 ， 而 是 每 调用 一 次 next0) 方 法 产生 一 个 
数 ， 这 样 生成 器 的 优势 束 体 现 出 来 了 。 























应 的 值 并 保留 现场 
begin: 




















# 





语句 开始 执行 ，4 
直接 转 到 2 
， 循 环 条 件 永远 为 真 ， 从 而 再 次 转 到 状态 3 


en 
yield a data 
-3.0 








生成 占 的 优点 总 体 来 说 有 如 下 几 条 : 


生成 喜 提 供 了 一 种 更 为 便利 的 产生 返 代 器 的 方式 ， 用 户 一 般 不 需 
要 目 己 实 现 _iter 和 next 方 法 ， 它 默认 返回 一 个 迭代 器 。 


代码 更 为 简洁 、 优 雅 。 


.充分 利用 了 延迟 评估 (Lazy evaluation) 的 特性 ， 仅 在 需要 的 时 候 
才 产 生 对 应 的 元 素 ， 而 不 是 一 次 生成 所 有 的 元 素 ， 从 而 节省 了 内 存 空 
间 ， 提 高 了 效率 ， 理 论 上 无 限 循 环 成 为 可 能 而 不 会 导致 MemoryError， 
这 在 大 数据 处 理 的 情形 下 尤为 重要 。 


使 得 协同 程序 更 为 容易 实现 。 协 同 程序 是 有 多 个 进入 点 ， 可 以 挂 
起 恢复 的 函数 ， 这 基本 就 是 yield 的 工作 方式 。Python2.5 之 后 生成 器 的 功 
能 更 加 完善 ， 加 入 了 send0、close0 和 throw(0) 方 法 。 其 中 send0 不 仅 可 以 
传递 值 给 yield 语 句 ， 而 且 能 够 恢复 生成 器 ， 因 此 生成 器 能 大 大 简化 协同 
程序 的 实现 。 


现在 我 们 回 过 头 来 看 看 本 节 开 头 的 例子 ， 使 用 生成 器 来 实现 是 不 是 
更 为 简洁 呢 ? 




















>>> def fib(n) : 


a = b=1 
for i in range(n): 
yield a 


aib = barb 


二 一 


建议 86: 使 用 不 同 的 数据 结构 优化 性 能 


在 解决 性 能 问题 的 时 候 ， 如 果 已 经 到 了 非 改 代码 不 可 的 情况 ， 考 虑 
到 Python 中 的 查找 、 排 序 第 用 算法 都 已 经 优化 到 极点 (虽然 对 sort0 使 用 
key 参 数 比 使 用 cmp 参 数 有 更 高 的 性 能 仍然 值得 一 提 〉， 那 么 首先 应 当 想 
到 的 是 使 用 不 同 的 数据 结构 优化 性 能 。 


首先 来 看 最 常用 的 数据 结构 一 一 list， 它 的 内 存 管理 类 似 C++ 的 
std::vector， 即 先 预 分 配 一 定数 量 的 “车 位 ?>， 当 预 分 配 的 内 存 用 完 时 ， 又 
继续 往 里 插入 元 素 ， 就 会 启动 新 一 轮 的 内 存 分 配 。list 对 象 会 根据 内 存 
增长 算法 申请 一 块 更 大 的 内 存 ， 然 后 将 原 有 的 所 有 元 素 拷贝 过 去 ， 销 毁 
之 前 的 内 存 ， 再 插入 新 元 素 。 当 删除 元 素 时 ， 也 是 类 似 ， 删 除 后 发 现 已 
用 空间 比 预 分 配 空 间 的 一 半 还 少时 ，1list 会 另外 申请 一 块 小 内 存 ， 再 做 
一 次 元 素 拷贝 ， 然 后 销毁 原 有 的 大 内 存 。 可 见 ， 如 果 1list 对 象 经 常 有 元 
素数 量 的 “巨变 ”， 比 如 膨胀 、 收 缩 得 很 频繁 ， 那 么 应 当 考 虑 使 用 


deque。 


deque 就 是 双 羡 队列 ， 同 时 具备 栈 和 队列 的 特性 ， 能 够 提供 在 两 端 
插入 和 删除 时 复杂 度 为 0(1) 的 操作 。 相 对 于 list， 它 最 大 的 优势 在 于 内 存 
管理 方面 。 如 果 不 熟 悉 C++ 的 std::deque， 那 么 可 以 把 deque 想 象 为 多 个 
list 连 在 一 起 〈 仅 为 比喻 ， 非 精确 描述 ) ,，“ 像 火车 一 样 ， 每 一 节 车 厢 可 
以 载 客 ”?， 它 的 每 一 个 ist* 也 可 以 存储 多 个 元 素 。 它 的 优势 在 插入 时 ， 
己 有 空间 已 经 用 完 ， 那 么 它 会 申请 一 个 “和 车厢” 来 容纳 新 的 元 素 ， 并 将 其 
与 已 有 的 其 他 “车 厢 ? 串 接 起 来 ， 从 而 避免 元 素 拷贝 : 在 删除 元 素 时 也 类 
似 ， 某 个 “车 厢 ?” 空 了 ， 就 “丢弃 ?” 掉 ， 无 需 移 动 元 素 。 所 以 当 出 现 元 素数 
量 “ 已 变 ” 时 ， 它 的 性 能 比 list 要 好 上 许多 倍 。 


对 于 list 这 种 序列 容器 来 说 ， 除 了 pop(0) 和 insert(0，vVv) 这 种 插入 操作 
非常 耗 时 之 外 ， 查 找 一 元 素 是 否 在 其 中 ， 也 是 O(n) 的 线性 复杂 度 。 在 C 
语言 中 ， 标 准 库 函数 bsearch() 能 够 通过 二 分 查找 算法 在 有 序 队列 中 快速 
查找 是 否 存在 某 一 元 素 。 在 Python 中 ， 对 保持 list 对 象 有 序 以 及 在 有 序 队 
列 中 查找 元 素 有 非常 好 的 支持 ， 这 是 通过 标准 库 bisect 来 实现 的 。 


bisect 并 没有 实现 一 种 新 的 “数据 结构 ” 其 实 它 是 用 来 维护 “有 序列 
表 ” 的 一 组 函数 ， 可 以 兼容 所 有 能 够 随机 存 取 的 序列 容器 ， 比 如 list。 它 
可 使 在 有 序列 表 中 查找 某 一 元 系 变 得 非常 简单 。 



























































保持 列表 有 序 需 要 付出 额外 的 维护 工作 ， 但 如 果 业 务 需要 在 元 素 较 
多 的 列表 中 频繁 查找 某 些 元 素 是 否 存 在 或 者 需要 频繁 地 有 序 访问 这 些 元 
素 ， 使 用 bisect 则 相当 值得 。 


对 于 序列 容器 ， 除 了 插 和 入、 删除、 查找 之 外 ， 还 有 一 种 很 常见 的 需 
求 是 就 获取 其 中 的 极 大 值 或 极 小 值 元 素 ， 比 如 在 查找 最 短路 径 的 A* 算 
法 中 就 需要 在 Open 表 中 快速 找到 预 估 值 最 小 的 元 素 。 这 时 候 ， 可 以 使 用 
heapq 模 块 。 类 似 bisect，heapq 也 是 维护 列表 的 一 组 函数 ， 其 中 最 先 接触 
的 必然 是 heapifyQO)， 它 的 作用 是 把 一 个 序列 容器 转化 为 一 个 堆 。 














>>> import heapq 
import random 

>>> alist = [random.randint(0, 100) for i in xrange(10)] 
alist 
62, 38, 18, 26, 92, 9, 57, 52, 97] 
heapq.heapify(alist) 
>>> alist 

[9, 18, 38, 52, 26, 92, 59, 57, 62, 97] 


>>> 
[59， 
>>> 





可 以 看 到 转化 为 堆 后 ，alist 的 第 一 个 元 素 alist[0] 是 整个 列表 中 最 小 
的 元 素 ，heapq 将 保证 这 一 点 ， 从 而 保证 从 列表 中 获取 最 小 值 元 素 的 时 
间 复 杂 度 是 O(1)。 





>>> heapq.heappop(alist) 
9 


>>> alist 
[18, 26, 38, 52, 97, 92, 59, 57, 62] 





除了 通过 heapify() 函 数 将 一 个 列表 转换 为 堆 之 外 ， 也 可 以 通过 
heappush()、heappop0 〇 函数 插入 、 删 除 元 素 ， 人 针对 常见 的 先 插入 新 元 素 
再 获取 最 小 元 素 、 先 获取 最 小 元 素 再 插入 新 元 素 的 需求 ， 还 有 
heappushpop(heap，item) 和 heapreplace(heap,itemm) 函 数 可 以 快速 完成 。 从 
上 上 例 可 以 看 出 ， 每 次 元 素 增 减 之 后 序列 的 变化 都 很 大 ， 可 以 想象 维护 堆 
结构 需要 付出 许多 额外 计算 ， 所 以 千 万 不 要 “提前 优化 ?乱用 heapq， 以 


免 带 来 性 能 问题 。 


除 此 之 前 ，heapq 还 有 3 个 通用 函数 值得 介绍 ， 其 中 merge0 能 够 把 多 
个 有 序列 表 归 并 为 一 个 有 序列 表 〈 返 回 迭 代 器 ， 不 占用 内 存 ) ， 而 
nlargest() 和 nsmallest() 类 似 于 C++ 中 的 std::nth_element()， 能 够 返回 无 序 
列表 中 最 大 或 最 小 的 n 个 元 素 ， 并 且 性 能 比 sorted(iterable,key=key)[:n] 要 


JEJ o 








除了 对 容器 的 操作 可 能 会 出 现 性 能 问题 外 ， 容 器 中 存储 的 元 素 也 有 
很 大 的 优化 空间 ， 这 是 因为 在 很 多 业务 中 ， 容 占 存 储 的 元 素 往往 是 同一 
类 型 的 ， 比 如 都 是 整数 ， 而 且 整 数 的 取 值 范围 也 确定 ， 那 么 就 可 以 使 用 
array 优 化 程序 性 能 。 


array 实 例 化 的 时 候 需 要 指定 其 存储 的 元 素 类 型 ， 如 'c， 表 示 存 储 的 
每 个 人 元 素 都 相当 于 C 语 言 中 的 char 类 型 ， 占 用 内 存 大 小 为 1 字 节 。 








从 上 例 可 以 看 出 ，array 对 象 与 st 不同， 它 是 可 变 对 象 ， 可 以 随意 修 
改 某 一 元 素 的 值 。 不 过 它 最 大 的 优势 在 于 更 小 的 内 容 占 用 。 


看 ， 内 存 占用 只 有 使 用 了 list 的 40% 左 右 ， 这 个 优化 效果 在 元 素数 量 
巨大 的 时 候 会 更 加 明显 。 此 外 ， 还 有 性 能 方面 的 提升 。 


2 二 me 


0.21462702751159668 


>>> t = timeit.Timer("a.tostring()", "import array;a=array.array('c','cstring')") 
>>> t.timeit( 
0.1419069766998291 





从 容器 到 字符 串 的 转变 可 以 看 出 array 的 性 能 提升 是 比较 大 的 ， 但 也 
不 能 认为 array 在 什么 方面 都 有 更 好 的 性 能 。 





>>> t = timeit.Timer("a.reverse()", "import array;a=array.array('c', 'cstring')") 
>>> t.timeit() 

0.15056395530700684 

>>> t = timeit.Timer("a.reverse()", "a = list('cstring')") 

>>> t.timeit() 

0.08988785743713379 





看 ， 在 这 里 list 的 性 能 要 好 些 。 所 以 性 能 优化 一 定 要 根据 profiler 的 
剖析 结果 来 进行 ， 经 验 往 往 靠 不 住 ， 这 和 “不 要 提前 优化 ”一 样 是 性 能 优 
化 的 基本 原则 。 


建议 87: 充分 利用 set 的 优势 


假设 有 这 人 么 个 需求 ， 和 希望 能 找 出 两 个 不 同 的 给 定 目录 下 相同 的 文件 
名 。 该 怎么 实现 呢 ? 一 个 可 行 的 方法 是 列 出 两 个 目 录 下 所 有 的 文件 名 ， 
然后 逐 逐一 比较 找 出 相同 的 项 。 实 现代 码 如 下 : 








Import os 
def ListFilename(dirname,filesuffix): 
filelist = [] 
os.chdir(dirname) 
for files in os.listdir(" 
if files. endswathtfatesurfix， 
filelist.append(files) # 
找 出 满足 条 件 的 后 绥 条 件 的 文件 加 大汉 列 塌 4 中 
return filelist 
filelistA = ListFilename("C:\\", 四 
filelistB = ListFilename("C: Se “Log") 
filelistA.sort() 





对 列表 进行 排序 
filelistB.sort() 
samefilelist=[] # 
下 人 放 相同 文件 的 列表 
in filelistA: # 


和 和 比较 
for b in filelistB: 
A a = Db 


samefilelist.append(a) 
print samefilelist 








示例 程序 选择 的 数据 结构 为 列表 ， 首 先 对 列表 进行 排序 ， 然 后 进行 
逐 项 比较 ， 其 算法 的 复杂 度 为 O0 (mxn) ， 其 中 m、n 分 别 为 两 个 列表 的 
长 度 。 那 么 请 读者 思考 一 下 ， 有 没有 更 好 的 选择 呢 ? 我 们 来 了 解 一 下 集 
全 Tset) 的 基本 知识 点 。 Python 中 集合 是 通过 Hash 算 法 实现 的 无 序 不 重 
复 的 元 素 集 。 创建 集合 通过 set() 方 法 来 实现 。 











>>> eo es ) 

set(['h '1', '0']) 
>>> a = [1 2 "34" fe 6)] 
ne set (a) 

方便 地 将 列表 转换 为 set 
set([(5, 6), 1, 2, '34']) 








集合 中 种 见 的 操作 以 及 对 应 的 时 间 复 杂 上 度 如 表 8-5 所 示 。 
表 8-5 ”集合 常见 操作 及 时 间 复 杂 上 度 


时 间 复 杂 度 

DE 

平均 最 
和 > 


$ 和 1t 的 交集， >>> $,intersection(t) | O(min(len(s),l OUlen(S) 
i GO tfL 2.3 和 
set( 


len(})) len(D)) 
人 


>>> s,difference(() 
set([]) 
0O(len(s) 
>>> .difference(s) 
元 素 组 成 的 集 st OD 


>>> $= set([1,2,3]) 
>>>t=$set([3.4,5,6]) 
>>> s,symmetric_ 
difference(t) 
| SS 和 + 的 I 
guo 二 大 s 和 1 的 >>> Sionf) olen) 0O(len(s) * 
difference(t) set([1, 2, 3, 4, 5, 6]) len(})) 
>>> ,intersection(t) 
set([3]) 
>>> s,union(t)-s, 
intersection(t) 
set([1, 2, 4, 5, 6]) 


对 表 8-5 时 间 复 共度 这 列 仔细 分 析 会 有 发现， 集合 操作 的 复杂 度 基 本 
为 OOD)， 最 差 的 情况 下 时 间 复 杂 度 才 为 OOnA2) 。 回 过 头 来 看 本 蔬 开 头 
的 例子 ， 你 是 不 是 会 有 这 么 一 个 想法 : 如 果 能 够 将 对 列表 的 操作 改 为 对 
集合 的 操作 ， 性 能 将 会 明显 提高 ? 那么 事实 是 不 是 如 我 们 所 料 呢 ? 我 们 
先 来 基于 一 些 基本 操作 测试 一 下 这 两 种 数据 结构 在 性 能 上 的 表现 。 


1) 对 list 求 相同 的 元 素 ，set 求 并 集 。 当 元 素 规模 为 100 的 时 候 测 试 


y 和 的 


$-t, 在 ;由 0 
s.differencel(t) 




















结果 显示 ，list 的 耗 时 大 约 为 set 操 作 的 15 倍 。 





Python -m timeit -n 1000 "[x for x in xrange(100) if x in xrange(60, 100)]" 
1000 loops, best of 3: 133 usec per loop 

Python -m timeit -n 1000 "set(xrange(100)).intersection(xrange(60, 100))" 
1000 loops, best of 3: 8.99 usec per loop 








当 元 素 规 模 为 1000 时 的 测试 结果 显示 ，list 耗 时 大 约 为 set 操 作 的 144 
倍 ， 向 宕 8-6 所 未 





Python -m timeit -n 1000 "[x For x in xrange(1000) if x in xrange(6090, 1000)]" 
1000 loops, best of 3: 9. 93 msec per loop 

Python -m timeit -n 1000 "set (xrange (2990)) . intersection(xrange(600, 1000))" 
1000 loops, best of 3: 68.9 usec per loop 


表 8-6 list 和 set 在 求 相同 元 素 操作 时 的 性 能 比较 





set 求 交集 








人 同 list 和 set 中 添加 元 素 ， 当 元 素 规 模 为 100 的 时 候 ，list 的 耗 时 为 
set 的 9 倍 。 





Python -m timeit -s "testset=set()" -s "for x in xrange(100): testset.add(x)" 
"for x in xrange(100): x in testset" 

100000 loops, best of 3: 11.5 usec per 1oop 

Python -m timeit -s "tmp = list()" -s "for x in xrange(100): tmp.append(x)" 
"for x in xrange(100): x in tmp 

10000 loops, best of 3: 104 usec per loop 








当 元 素 规模 为 1000 的 时 候 ，1list 的 耗 时 约 为 set 的 89 倍 ， 如 表 8-7 所 


表 8-7” 往 list 和 set 中 添加 元 素 的 情况 下 性 能 比较 


操 作 时 间 {usec 
]1 .5 
问 Set 中 添加 元 素 
105 
各 中 派 加 元 104 
9410 








Python -m timei Ee -S tset= ee -Ss "for in xrange(1000): testset. 
add(x)" "fo in xrange(1000): x in testset™ 

10000 Pope best of 3: usec per op 

P 沁 此 "tm 了 . 引 侵 如 "for x in xrange(1000): tmp.append(x)" 
for 苇 in xran noe (29900): in En 

100 loo pe be df 3 sec per loop 





从 表 8-7 所 示 的 测试 数据 中 可 以 看 出 ，set 在 某 些 操作 上 明显 比 list 更 
癌 效 ， 实际 上 set 的 union、intersection、difference 等 操作 要 比 list 的 迭代 
要 快 。 因 此 如 果 涉 及 求 list 交 集 、 并 集 或 者 兰 等 问题 可 以 转换 为 set 来 操 
作 。 因 此 本 节 最 初 的 例子 将 list 转 换 为 set 再 求 交 集会 更 为 简洁 高 效 ， 可 
修改 为 print ”set(filelistA)&set(filelist)。 修 改 后 测试 结果 表明 ， 即 使 规模 
在 10 左 右 ，set 的 效率 仍然 比 list 高 了 将 近 3 倍 (读者 可 以 上 自行 验证 )。 





建议 88: 使 用 multiprocessing 克 服 GIL 的 缺陷 


众所周知 ，GIL 的 存在 使 得 Python 中 的 多 线程 无 法 充分 利用 多 核 的 
优势 来 提高 性 能 ， 这 个 问题 困扰 着 很 多 开发 者 ， 也 使 很 多 人 备 受 打击 。 
一 些 人 甚至 提出 质疑 要 求 移 去 GIL， 但 由 于 种 种 原因 目前 还 没有 明确 的 
迹象 表明 GIL 会 在 随后 的 版 本 中 消失 。 为 了 能 够 充分 利用 多 核 优势 ， 
Python 的 专家 们 提供 了 男 外 一 个 解决 方案 : 多 进程 。Multiprocessing 由 
此 而 生 ， 它 是 Python 中 的 多 进程 管理 包 ， 在 Python2.6 版 本 中 引进 的 ， 主 
要 用 来 帮助 处 理 进程 的 创建 以 及 它们 之 间 的 通信 和 相互 协调 。 它 主要 解 
决 了 两 个 问题 ， 一 是 尽量 缩小 平台 之 间 的 差异 ， 提 供 高 层次 的 API 从 而 
使 得 使 用 者 忽略 底层 IPC 的 问题 ;二 是 提供 对 复杂 对 象 的 共享 支持 ， 支 
持 本 地 和 远程 并 发 。 


类 Process 是 multiprocessing 中 较为 重要 的 一 个 类 ， 用 于 创建 进程 ， 
其 构造 函数 如 下 : 





Process([group [，target [, name [，args [, kwargs]]]]]) 


其 中 ， 参 数 target 表 示 可 调用 对 象 ，args 表 示 调 用 对 象 的 位 置 参数 元 
组 ; kwargs 表 示 调 用 对 象 的 字典 ，name 为 进程 的 名 称 ; group 一 般 设 置 
为 None。 该 类 提供 的 方法 与 属性 基本 上 与 threading.Thread 类 一 致 ， 包 括 
is_alive()、join([timeout])、run()、start()、terminate()、daemon 〈 要 通过 
start() 设 置 ) 、exitcode、name、pid 等 。 


不 同 于 线程 ， 每 个 进程 都 有 其 独立 的 地 址 空间 ， 进 程 间 的 数据 空间 
也 相互 独立 ， 因 此 进程 之 间 数 据 的 共享 和 传递 不 如 线程 来 得 方便 。 庆 到 
的 是 multiprocessing 模 块 中 都 提供 了 相应 的 机 制 : 如 进程 间 同 步 操 作 原 
语 Lock、Event、Condition、Semaphore， 传 统 的 管道 通信 机 制 pipe 以 及 
队列 Queue， 用 于 共享 资源 的 multiprocessing.Value 和 
multiprocessing.Array 以 及 Manager 等 。 








Multiprocessing 模 块 在 使 用 上 需要 注意 以 下 几 个 要 点 : 


1) 进程 之 间 的 通信 优先 考虑 Pipe 和 Queue， 而 不 是 Lock、Event、 
Condition、Semaphore 等 同步 原 语 。 进 程 中 的 类 Queue 使 用 pipe 和 一 些 


locks、semaphores 原 语 来 实现 ， 是 进程 安全 的 。 该 类 的 构造 函数 返回 一 
个 进程 的 共享 队列 ， 其 文 持 的 方法 和 线程 中 的 Queue 基 本 类 似 ， 除 了 方 
法 task_done0 和 join0 是 在 其 子 类 JoinableQueue 中 实现 的 以 外 。 需 要 注意 
的 是 ， 由 于 底层 使 用 pipe 来 实现 ， 使 用 Queue 进 行进 程 之 间 的 通信 的 时 
候 ， 传 输 的 对 象 必 须 是 可 以 序列 化 的 ， 人 否则 put 操 作 会 导致 
PicklingError。 此 外 ， 为 了 提供 put 方 法 的 超时 控制 ，Queue 并 不 是 直接 
将 对 象 写 到 管道 中 而 是 先 写 到 一 个 本 地 的 缓存 中 ， 再 将 其 从 缓存 中 放 入 
pipe 中 ， 内 部 有 个 专门 的 线程 feeder 负 责 这 项 工作 。 由 于 feeder 的 存在 ， 
Queue 还 提供 了 以 下 特殊 方法 来 处 理 进程 退出 时 缓存 中 仍然 存在 数据 的 


问题 。 


close(): 表明 不 再 存放 数据 到 queue 中 。 一 旦 所 有 缓冲 的 数据 刷新 
到 管道 ， 后 台 线 程 将 退出 。 


join_thread0: 一 般 在 close 方 法 之 后 使 用 ， 它 会 阻止 直到 的 后 台 线 
程 退 出 ， 确 保 所 有 绥 冲 区 中 的 数据 已经 刷新 到 管道 中 。 


:cancel_ join_thread0: 需要 立即 退出 当前 进程 ， 而 无 需 等 待 排队 的 
es 表明 无 需 阻 止 到 后 台 线 


Multiprocessing 中 还 有 个 SimpleQueue 队 列 ， 它 是 实现 了 锁 机 制 的 
pipe， ss 了 buffer， 但 没有 提供 put 和 get 的 超时 处 理 ， 两 个 动作 都 
是 阻塞 的 。 


除了 multiprocessing.Queue 之 外 ， 男 一 种 很 重要 的 通信 方式 是 
multiprocessing.Pipe。 它 的 构造 函数 为 multiprocessing.Pipe([duplex])， 其 
中 duplex 默 认为 True， 表 示 为 双 回 管道 ， 人 否则 为 单 癌 。 它 返回 一 个 
Connection 对 象 的 组 (conn1,conn2〉， 分 别 代 表 管道 的 两 端 。Pipe 不 支 
持 进 程 安全 ， 因 此 当 有 多 个 进程 同时 对 管道 的 一 端 进 行 读 操 作 或 者 写 操 
作 的 时 候 可 能 会 导致 数据 丢失 或 者 损坏 。 因 此 在 进程 通信 的 时 候 ， 如 果 
是 超过 2 个 以 上 进程 ， 可 以 使 用 queue， 但 对 于 两 个 进程 之 间 的 通信 而 言 
Pipe 性 能 更 快 。 下 面 看 一 个 示例 : 




















from multiprocessing import Process, Pipe, Queue 
import time 
def reader_pipe(pipe): 
output_p, input_p = pipe # 
返回 管道 的 两 端 


input_p.close() 
while True : 
Ls 
msg = output_p.recv() # 
从 pipe 
中 读 取消 息 





except EOFError: 
break 
def writer_pipe(count, input_p): # 
写 消息 到 管道 中 
for i in xrange(0, count): 
input_p.send(i) # 
发 送 消息 











def reader_queue(queue ) : # 
利用 队列 来 发 送 消息 
while True: 








msg = queue.get() # 





从 队列 中 获取 元 素 





if (msg == 'DONE'): 
break 
def writer_queue(count, queue): 
for ii in xrange(9，count ) : 


queue .put(ii) # 
放 入 消息 队列 中 
queue.put('DONE') 
if _ name =='_ main _': 
print "testing for pipe:" 
for count in [10**3, 16**4, 10**5]: 
output_p, input_p = Pipe() 
reader_p = Process(target=reader_pipe, args=((output_p, input_p),)) 
reader_p.start() # 





启动 进程 
output_p.close() 
_Start = time.time() 
writer_pipe(count, input_p) # 





写 消息 到 管道 中 
input_p.close() 

















reader_p.join() # 
等 待 进程 处 理 完毕 
print "Sending %s numbers to Pipe() took %s seconds" % (count, 
(time.time() - _start)) 
print "testing for queue:" 
for count in [10**3, 10**4, 10**5]: 
queue = Queue() # 
利用 queue 
进行 通信 


reader_p = Process(target=reader_queue, args=((queue), )) 
reader_p.daemon = True 
reader_p.start() 
_Start = time.time() 
writer_queue(count, queue) # 
写 消息 到 queue 
中 





reader_p.join() 
print "Sending %s numbers to Queue() took %s seconds" % (count, 
(time.time() - _start)) 

输出 比较 : 
testing for pipe: 
Sending 1000 numbers to Pipe() took 0.15299987793 seconds 
Sending 10000 numbers to Pipe() took 0.384999990463 seconds 
Sending 100000 numbers to Pipe() took 2.09099984169 seconds 
testing for queue: 
Sending 1000 numbers to Queue() took 0.169000148773 seconds 
Sending 10000 numbers to Queue() took 0.555000066757 seconds 
Sending 100000 numbers to Queue() took 3.0790002346 seconds 





上 面 的 代码 分 别 用 来 测试 两 个 多 线程 的 情况 下 使 用 pipe 和 queue 进 行 
通信 发 送 相 同 数据 的 时 候 的 性 能 ， 其 中 与 pipe 相 关 的 函数 为 reader_pipe() 
和 writer_pipe()， 而 与 queue 相 关 的 主要 函数 为 writer_queue() 和 
0 。 从 函数 输出 可 以 看 出 ，pipe 所 消耗 的 时 间 较 小 ， 性 能 

人 


2) 尽量 避免 资源 共享 。 相 比 于 线程 ， 进 程 之 间 资 源 共享 的 开销 较 
大 ， 因 此 要 尽量 避免 资源 共享 。 但 如 果 不 可 避免 ， 可 以 通过 
multiprocessing.Value 和 multiprocessing.Array 或 者 
mnultiprocessing.sharedctypes 来 实现 内 存 共享 ， 也 可 以 通过 服务 器 进程 管 








理 句 Manager(0 来 实现 数据 和 状态 的 共享 。 这 两 种 方式 各 有 优势 ， 总 体 
来 说 共享 内 存 的 方式 更 快 ， 效 率 更 局 ， 但 服务 需 进 程 管 理 左 ManagerO 
使 用 起 来 更 加 方便 ， 并 且 支 持 本 地 和 远程 内 存 共享 。 我 们 通过 几 个 例子 
来 看 一 下 各 目 使 用 需要 注意 的 问题 。 


示例 一 : 使 用 Value 进行 内 存 共 享 。 











import time 
from multiprocessing import Process, Value 
def func(val): # 
多 个 进程 同时 修改 val 
for i in range(10): 
time.sleep(0.1) 
val.value += 1 




















fT name, == '_ main __"' 

Vv = Value('i', 0) # 
使 用 value 
来 共享 内 存 


processList = [Process(target=func, args=(v,)) for i in range(10)] 
for p in processList: p.start() 
for p in processList: p.join() 

print v.value 





上 面 的 程序 输出 是 多 少 ?100 对 吗 ? 你 可 以 运行 看 看 。Python 官 方 
文档 中 有 个 容易 让 人 迷惑 的 描述 : 在 Value 的 构造 函数 
multiprocessing.Value(typecode_or_type,*args[,lock]) 中 ， 如 果 lock 的 值 为 
True 会 创建 一 个 锁 对 象 用 于 同步 访问 控制 ， 该 值 默认 为 True。 因 此 很 多 
人 会 以 为 Value 是 进程 安全 的 ， 实 际 上 要 真正 控制 同步 访问 ， 需 要 实现 
获取 这 个 锁 。 因 此 上 面 的 例子 要 保证 每 次 运行 都 输出 100， 需 要 将 函数 
func 修 改 如 下 : 











def func(val): 
for i in range(10): 

















time.sleep(0.1) 
with val.get_lock(): # 
仍然 需要 使 用 get_lock 
方法 来 获取 锁 对 象 


val.value += 1 





示例 二 : 使 用 Manager 进 行内 存 共享 。 





import multiprocessing 
def f(ns): 
ns.x.append(1) 
ns.y.append('a') 
Ly name, == i 
manager = multiprocessing.Manager() 
ns = manager .Namespace() 
ns.x = [] #manager 





内 部 包括 可 变 对 象 


ns.y = 


print 'before process operation:', ns 

p = multiprocessing.Process(target=f, args=(ns, )) 
p.start() 

p.join() 


print 'after process operation', ns # 


修改 根本 不 会 生效 








本 意 是 希望 x=[1]，y=['“a]， 程 序 输出 是 不 是 期 望 的 结果 呢 ? 答案 是 
否定 的 。 这 又 是 为 什么 昵 ? 这 是 因为 manager 对 象 仅 能 传播 对 一 个 可 变 
对 象 本 身 所 做 的 修改 ， 如 有 一 个 manager.list0 对 象 ， 管 理 列表 本 身 的 任 
何 更 改 会 传播 到 所 有 其 他 进程 。 但 是 ， 如 果 容 器 对 象 内 部 还 包括 可 修改 
的 对 象 ， 则 内 部 可 修改 对 象 的 任何 更 改 都 不 会 传播 到 其 他 进程 。 因 此 ， 
正确 的 处 理 方式 应 该 是 下 面 这 种 形式 : 





import multiprocessing 

def f(ns,x,y): 
x.append(1) 
y.append('a') 


ns.x= x 
将 可 变 对 象 也 作为 参数 传 入 
ns.y = y 


if name, == '_ main__': 
manager = multiprocessing.Manager() 
ns = manager .Namespace() 
ns.x = [] 
ns.y = [] 
print 'before process operation:', ns 
p = multiprocessing.Process(target=f, args=(ns,ns.x,ns.y,)) 
p.start() 
p.join() 
print 'after process operation', ns 








3) 注意 平台 之 间 的 差异 。 由 于 Linux 平 台 使 用 forkO 函 数 来 创建 进 
程 ， 因 此 父 进程 中 所 有 的 资源 ， 如 数据 结构 、 打 开 的 文件 或 者 数据 库 的 
连接 都 会 在 子 进程 中 共享 ， 而 Windows 平 台中 父子 进程 相对 独立 ， 因 此 
为 了 更 好 地 保持 平台 的 兼容 性 ， 最 好 能 够 将 相关 资源 对 象 作为 子 进 程 的 
构造 函数 的 参数 传递 进去 。 因 此 要 避免 如 下 方式 : 








f = None 
def child(f): 
# do something 
流下 name, == '_ main 
f = open(filename, mode) 





p = Process(target=child) 
p.start() 


() 
而 推荐 使 用 如 下 方式 : 
def child(f): 




















if name, == "main __"' 

f = open(filename,mode 

p = Process(target=child,args=(f, )) # 
将 资源 对 象 作为 构造 函数 参数 传 入 

p.start() 

p.join() 


一 -和 








需要 注意 的 是 ，Linux 平 台 上 multiprocessing 的 实现 是 基于 C 库 中 的 
forkO0， 上 所 有 子 进 程 与 父 进程 的 数据 是 完全 相同 ， 因 此 父 进程 中 所 有 的 
资源 ， 如 数据 结构 、 打开 的 文件 或 痢 数据 库 的 连接 都 会 在 于 进程 共 至 。 
但 Windows 平 台 上 由 于 没有 forkO 函 数 ， 父 子 进程 相对 独立 ， 因 此 为 了 保 
持平 台 的 兼容 性 ， 最 好 在 脚本 中 加 上 “if_name ==“ main >”:” 的 判 
断 。 这 样 可 以 避免 有 可 能 出 现 的 RuntimeError 或 者 死 锁 。 


4) 尽量 避免 使 用 terminate() 方 式 终止 进程 ， 并 且 确 保 pool.map 中 传 
入 的 参数 是 可 以 序列 化 的 。 在 下 面 的 例子 中 ， 如 果 直 接 将 一 个 方法 作为 
参数 传 入 map 中 ， 会 抛 出 cPickle.PicklingError 异 常 ， 这 是 因为 函数 和 方 
法 是 不 可 序列 化 的 。 





def run(self): 
def f(x 
turn x*x 


nt 

rn p.map(f, [1,2,3]) # 
直接 传 入 函 蜂 

cl = calcu ua ate() 

print cl.run() # 
抛 出 cPi ae， PicklingError 
异常 





一 个 可 行 的 正确 做 法 如 下 : 





Import multipro 
def ne self. ag **kwarg): 
return calculate.f(*arg, **kwarg) # 
返回 一 个 天 
class calcu ee 
def f(se 2 


ur 
def run(s ale 
p = multiprocessing.Pool() 
retu Th p. map(u unwrap_self_f, zip([self]*3,[1,2,3])) 
和 





calcu cularel) 
print cl.run() 


二 一 


建议 89， 使 用 线程 池 提 高 效率 


我 们 知道 线程 的 生命 周期 分 为 5 个 状态 : 创建 、 就 绪 、 运 行 、 阻 肾 
和 终止 。 目 线程 创建 到 终止 ， 线 程 便 不 断 在 运行 、 就 绕 和 阻 瞪 这 3 个 状 
态 之 间 转 换 直 至 销毁 。 而 真正 占有 CPU 的 只 有 运行 、 创 建 和 销毁 这 3 个 
状态 。 一 个 线程 的 运行 时 间 由 此 可 以 分 为 3 部 分 : 线程 的 启动 时 间 
(Ts) 、 线 程 体 的 运行 时 间 〈Tr) 以 及 线程 的 销毁 时 间 〈Td) 。 在 多 线 
程 处 理 的 情景 中 ， 如 果 线 程 不 能 够 被 重用 ， 就 意味 独 每 次 创建 者 需要 经 
过 启动 、 销 毁 和 运行 这 3 个 过 程 。 这 必然 会 增加 系统 的 相应 时 间 ， 降 低 
效率 。 而 线程 体 的 运行 时 间 Tr 不 可 控制 ， 在 这 种 情况 下 如 何 提高 线程 运 
行 的 效率 呢 ? 线程 池 便 是 一 个 解决 方案 。 


线程 池 的 基本 原理 如 图 8-6 所 示 ， 它 通过 将 事先 创建 多 个 能 够 执行 
任务 的 线程 放 入 池 中 ， 所 需要 执行 的 任务 通常 被 安排 在 队列 中 。 通 常情 
况 下 ， 需 要 处 理 的 任务 比 线程 数目 要 多 ， 线 程 执行 完 当 前 任务 后 ， 会 从 
队列 中 取 下 一 个 任务 ， 直 到 所 有 的 任务 已 经 完成 。 
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图 8-6 ”线程 池 的 基本 原理 
由 于 线程 预先 被 创建 并 放 入 线程 池 中 ， 同 时 处 理 完 当前 任务 之 后 并 





不 销毁 而 是 被 安排 处 理 下 一 个 任务 ， 因 此 能 够 避免 多 次 创建 线程 ， 从 而 
节省 线程 创建 和 销毁 的 开销 ， 融 来 更 好 的 性 能 和 系统 稳定 性 。 线 程 池 技 
术 适 合 处 理 突 发 性 大 量 请 求 或 者 需要 大 量 线程 来 完成 任务 、 但 任务 实际 
处 理 时 间 较 短 的 应 用 场景 ， 它 能 有 效 避 人 免 由 于 系统 中 创建 线程 过 多 而 导 
致 的 系统 性 能 负荷 过 大 、 啊 应 过 慢 等 问题 。 


在 Python 中 利用 线程 池 有 两 种 解决 方案 : 一 是 目 己 实现 线程 池 模 
式 ， 二 是 使 用 线程 池 柑 块 。 我 们 先 来 看 一 个 线程 池 模 式 的 简单 实现 。 




















import Queue, sys,threading 
import urllib2,os 
# 
处 理 request 
的 工作 线程 
class Worker(threading.Thread): 
def _ init_( self, workQueue, resultQueue, **kwds): 
threading.Thread. init ( self, **kwds ) 
self.setDaemon( True ) 
self .workQueue = workQueue 
self.resultQueue = resultQueue 
def run( self ): 
while True: 
try: 
callable, args, kwds = self.workQueue.get(False)# 
从 队列 中 取出 一 个 任务 
res = callable(*args, **kwds) 
self.resultQueue.put( res ) # 
存放 处 理 结果 到 队列 中 
except Queue.Empty: 











break 
class WorkerManager : # 
线程 池 管 理 器 
def _ init_( self, num_of_workers=10): 

self .workQueue = Queue.Queue() # 
请 求 队列 

self.resultQueue = Queue.Queue() # 
输出 结果 的 队列 


self .workers = [] 
self._recruitThreads( num_of_workers ) 
def _recruitThreads( self, num_ of workers ): 
for i in range( num_of workers ): 
worker = Worker( self.workQueue, self.resultQueue )# 


创建 工作 线程 








self .workers.append(worker) # 
加 入 线程 队列 中 
def start(self): # 
启动 线程 
for w in self.workers: 
w.start() 


def wait_ for_complete( self): 
while len(self.workers): 
worker = Self.workers.pop() # 
从 池 中 取出 一 个 线程 处 理 请 求 
worker.join( ) 
if worker.isAlive() and not self.workQueue.empty(): 
self .workers.append( worker ) 

重新 加 入 线程 池 中 


print "All jobs were completed." 
def add_job( self, callable, *args, **kwds ): 

















self.workQueue.put( (callable, args, kwds) ) # 
往 工 作 队 列 中 加 入 请 求 
def get_result( self, *args, **kwds ): # 
获取 处 理 结果 





return self.resultQueue.get( *args, **kwds ) 
def download_file(url): 

print "begin download",url 

urlhandler = urllib2.urlopen(url1) 

fname = os.path.basename(url)+".html" 

with open(fname, "wb") as f: 

while True: 
chunk = urlhandler.read(1024) 
if not chunk: break 
f.write(chunk) 
urls = ["http://wiki.python.org/moin/WebProgramming", 

"https://www.createspace.com/3611970", 
"http://wiki.python.org/moin/Documentation" 


wm = WorkerManager(2) # 
创建 线程 池 
for i i b 

wm.add_job( download_ file, i ) # 
将 所 有 请 求 加 入 队列 中 
m.sta 





() 
wm.wait_for_complete() 





自行 实现 线程 池 ， 需 要 定义 一 个 Worker 处 理工 作 请 求 ， 定 义 
WorkerManage 来 进行 线程 池 的 管理 和 创建 ， 它 包含 一 个 工作 请 求 列 队 
和 执行 结果 列队 ， 有 具体 的 下 载 工作 通过 download_file() 方 法 来 实现 。 


相 比 上 自己 实现 的 线程 池 模型 ， 使 用 现成 的 线程 池 模块 往往 更 简单 。 
Python 中 线程 池 模 块 的 下 载 地 址 为 : 
https://pypi.python.org/pypi/threadpool。 该 模块 提供 了 以 下 基本 类 和 方 
潜 : 


1) threadpool.ThreadPool: 线程 池 类 ， 主 要 的 作用 是 用 来 分 派 任务 
请 求 和 收集 运行 结果 。 主 要 有 以 下 方法 。 





*__ init (self, num_workers, q_size=0, resq_size=0, poll_timeout=5): 
建立 线程 池 ， 并 启动 对 应 num_workers 的 线程 ，g_size 表 示 任 务 请 求 队 
列 的 大 小 ，resq_size 表 示 存 放 运 行 结果 队列 的 大 小 。 





:createWorkers(self, num workers,，poll_timeout=5): 将 num_workers 


数量 对 应 的 线程 加 入 线程 池 中 。 


“dismissWorkers(self, num_workers, do_join=False): 告诉 


num_workers 数 量 的 工作 线程 在 执行 完 当 前 任务 后 退出 。 


“joinAllDismissedWorkers(self): 在 设置 为 退出 的 线程 上 执行 
Thread.join 。 


:putRequest(self, request, block=True, timeout=None): 将 工作 请 求 放 
入 队列 中 。 


.poll(self, block=False): 处 理 任 务 队列 中 新 的 请 求 。 
-wait(self): 阻塞 用 于 等 待 所 有 执行 结果 。 注 意 当 所 有 执行 结果 返回 


后 ， 线 程 池内 部 的 线程 并 没有 销毁 ， 而 在 等 竺 新 的 任务 。 因 此 ，waitO) 
之 后 仍然 可 以 再 次 调用 pool.putRequests0 往 其 中 添加 任务 。 


2) threadpool.WorkRequest: 包含 有 具体 执行 方法 的 工作 请 求 类 。 


3) threadpool.WorkerThread: 处 理 任 务 的 工作 线程 ， 主 要 有 run() 方 
法 以 及 dismiss() 方 法 。 


4) 
ee exc_callback=_handle_threa 
人 作用 是 创建 具有 相同 的 执行 函数 但 参数 不 同 的 一 系列 工作 
请 求 。 


| 最 后 看 一 个 例子 ， 将 上 一 节 多 线程 下 载 的 例子 改 为 用 线程 池 来 实 
现 。 





import urllib2 
import os 
import time 
import threadpool 
def download_file(url): 
print "begin download",url 
urlhandler = urllib2.urlopen(url) 
fname = os.path.basename(url)+".html" 
with open(fname, "wb") as f: 
while True: 
chunk = urlhandler.read(1024) 
if not chunk: break 
f.write(chunk) 
urls = ["http://wiki.python.org/moin/WebProgramming", 
"https://www.createspace.com/3611970" 
] "http://wiki.python.org/moin/Documentation" 
pool_size = 2 
pool = threadpool.ThreadPool(pool_ size) # 
创建 线程 池 ， 大 小 为 2 
requests = threadpool.makeRequests(download_ file, urls) # 
创建 工作 请 求 
[pool . putRequest (req) for req in requests] 
print "putting request to pool" 
pool.putRequest(threadpool .WorkRequest(download_ file, ATs ["http://chrisarndt. 
de/projects/threadpool/api/", ])) 
将 具体 的 请 求 放 入 线程 池 
pool.putRequest(threadpoo1.WorkRedquest(download file,args=["https://pypi.python. 
org/pypi/threadpool1", 1])) 
pool.poll() # 
处 理 任 务 队列 中 的 新 的 请 求 
pool.wait() 
print "destory all threads before exist" 
pool.dismissWorkers(pool size, do_join=True) # 
完成 后 退出 


QQ 一 一 | 








建议 90: 使 用 C/C++ 模块 扩展 提高 性 能 


Python 具 有 良好 的 可 扩展 性 ， 利 用 Python 提 供 的 API， 如 宏 、 类 
型 、 函 数 等 ， 可 以 让 Python 方便 地 进行 CUC++ 扩 展 ， 从 而 获得 较 优 的 执 
行 性 能 。 所 有 这 些 API 却 包含 在 Python.h 的 头 文件 中 ， 在 编写 C 代 码 的 时 
候 引 入 该 头 文 件 即 可 。 来 看 一 个 简单 的 扩展 例子 。 


1) 先 用 C 实 现 相 关 函 数 : 以 实现 素数 判断 为 例 ， 文 件 命名 为 
testextend.c。 也 可 以 直接 使 用 C 语 言 实现 相 关 函 数 功 能 后 再 使 用 Python 
进行 包装 。 








include "Python.hy" 
static PyObject *pr_isprime(PyObject *self, PyObject *args){ 


int n, num; 
if (!PyArg_ParseTuple(args, "i", &num)) # 
解析 参数 
ret NULL 
之 计生 
return Py_BuildvValue( 0) #C 


类 型 的 数据 结构 转换 成 Python 
对 象 
} 
n=num-1; 
while (n > 1){ 
if (num%n == 0) return Py_BuildVvalue("i", 0);; 


} 
return Py_BuildValue("i", 1); 


} 
static PyMethodDef PrMethods[] = { 
{"isPprime", pr_isprime, METH_VARARGS, "check if an input number is prime 
， 


’ 
void initpr(void){ 

(void) Py_InitModule("pr", PrMethods); 
} 





上 面 的 代码 包含 以 下 3 部 分 。 


导出 函数 : C 模 块 对 外 暴露 的 接口 函数 pr_isprime， 带 有 self 和 args 
两 个 参数 ， 其 中 参数 args 中 包含 了 Python 解释 器 要 传递 给 C 函 数 的 所 有 参 
数 ， 通 常 使 用 函数 PyArg_ParseTuple() 来 获得 这 些 参 数值 。 


-初始 化 函数 : 以 便 Python 解 释 器 能 够 对 模块 进行 正确 的 初始 化 ， 初 
始 化 时 要 以 init 开 头 ， 如 initp。 


:方法 列表 : 提供 给 外 部 的 Python 程序 使 用 的 一 个 C 模 块 函 数 名 称 映 
射 表 ”PrMethods。 它 是 一 个 PyMethodDef 结 构 体 ， 其 中 成 员 依 次 表示 方 
法 名 、 导 出 函数 、 参 数 传递 方式 和 方法 描述 。 看 下 面 这 个 例子 。 








Struct PyMethodDef { 
char* ame; 


方法 名 
PyCFunction ml_meth; 
导出 函数 





闪 闪 闪 入 


int ml_flags; 

参数 传递 方法 
char* ml_doc; 

方法 描述 

}; 





参数 传递 方法 一 般 设置 为 METH_VARARGS， 如 果 想 传 入 关键 字 参 
数 ， 则 可 以 将 其 与 METH_KEYWORDS 进 行 或 运算 。 若 不 想 接受 任何 参 
数 ， 则 可 以 将 其 设置 为 METH NOARGS。 该 结构 体 必 须 以 
{NULL,NULL,0,NULL} 所 表示 的 一 条 空 记录 来 结尾 。 





2) 编写 setup.py 脚 本 。 





from distutils.core import setup, Extension 
module = Extension('pr', sources = ['testextend.c']) 
setup(name = 'Pr test', version = '1.0', ext_modules = [module]) 








3) 使 用 python setup.py build 进 行 编译 ， 系 统 会 在 当前 目录 下 生成 一 
个 build 子 目录 ， 里 面包 含 pr.so 和 pr.o 文 件 ， 如 图 8-7 所 示 。 


running build 

running build ext 

building 'pr' extension 

creating build 

creating build/tenmp,linux-x86 64-2,4 

gee -pthread -fno-strict-aliasing -DNDEBUG -OQ2 -9 -pipe -Wall -Wp,-D FORIIFY SOU 


RCE=2 -fexceptions -fstack-protector --paran=3sp-butfer-size=4 -m64 -nmtune=gener 
ic -D GNU SOURCE -fPIC -fPIC -I/usr/include/python2,4 -C testextend,c -0 build/t 
enp, linux-X86 64-2,4/testextend,o 

creating build/lib, linux-x86 64-2,4 

gece -pthread -shared build/tenp, linux-x86 64-2,4/testextend,o -0 build/lib, linux 
-X86 64-2,4/pr,s0 





图 8-7 ”使 用 Python 进 行 编译 


4) 将 生成 的 文件 pr.so 复 制 到 Python 的 site_packages 目 录 下 ， 或 者 将 
0 录 的 路 径 添 加 到 sys.path 中 ， 束 可 以 使 用 C 扩 展 的 模块 了 ， 如 
8-8 及 不 。 


>»7> 1nport DT 
>>y dirlpr} 
[' doc ',' tile ',' nane ', 'ishrine'] 


>>y pr,1shrine (2) 
1 





图 8-8 ”导入 编译 后 的 模块 


更 多 关于 C 模 块 扩 展 的 内 容 请 读者 参考 http://docs.python.org/2/c- 
api/index.html。 


建议 91: 使 用 Cython 编写 扩展 模块 


Python-API 让 大 家 可 以 方便 地 使 用 C/C++ 编写 扩展 模块 ， 从 而 通过 
重 写 应 用 中 的 郑 贷 代码 获得 性 能 提升 。 但 是 ， 这 种 方式 仍然 有 几 个 问题 
让 Pythonistas 非 常 头疼 : 


1) 掌握 C/C++ 编 程 语 言 、 工 具 链 有 巨大 的 学 习 成 本 ， 如 有 果 没 有 这 
方面 的 技术 积累 ， 就 无 法 快速 编写 代码 ， 解 决 性 能 瓶颈 。 


2) 即便 是 C/C++ 熟 手 ， 重 写 代 码 也 有 非常 多 的 工作 ， 比 如 编写 特 
定数 据 结 构 、 算 法 的 C/C++ 有 版本， 费时 费力 还 容易 出 错 。 


所 以 整个 Python 社 区 都 在 努力 实现 一 个 “编译 器 *”， 它 可 以 把 Python 
代码 直接 编译 成 等 价 的 CUC++ 代 码 ， 从 而 获得 性 能 提升 。 通 过 开发 人 员 
的 艰苦 工作 ， 涌 现 出 了 一 批 这 类 工具 ， 如 Pyrex、Py2C 和 Cython 等 。 而 
从 Pyrex 发 展 而 来 的 Cython 是 其 中 的 集大成 者 。 


Cython 通 过 给 Python 代码 增加 类 型 声明 和 直接 调用 C 函 数 ， 使 得 从 
Python 代码 中 转换 的 C 代 码 能 够 有 非常 高 的 执行 效率 。 它 的 优势 在 于 它 
几乎 支持 全 部 Python 特性 ， 也 就 是 说 ， 基 本 上 所 有 的 Python 代码 都 是 有 
效 的 Cython 代 码 ， 这 使 得 将 Cython 技 术 引 入 项 目的 成 本 降 到 最 低 。 除 此 
之 外 ，Cython 文 持 使 用 decorator 语 法 声明 类 型 ， 甚 至 文 持 专门 的 类 型 声 
明文 件 ， 以 使 原 有 的 Python 代 码 能 够 继续 保持 独立 ， 这 些 特性 都 使 它 得 
0 00 0 




















安 疼 Cython 非 常 简 单 ， 使 用 pip 能 够 很 方便 地 安装 。 





pip install 
-U cython 








编译 时 间 有 点 漫长 ， 稍 作 等 待 ，Cython 惑 自动 安装 好 了 。 然 后 我 们 
可 以 尝试 拿 之 前 的 arithmetic.py 尝 斌 一下， 执行 命令 cython 
arithmetic.py， 很 快 就 完成 了 ， 但 其 实生 成 了 一 个 arithmetic.c 文 件 ， 它 非 
常 巨大， 大 概 会 有 两 三 干 行 。 是 的 ， 你 没有 看 错 ， 只 有 8 行 有 效 代码 的 





arithmetic.py 文 件 生成 的 C 代 码 有 两 三 干 行 。 它 的 部 分 代码 (subtract 函 数 
对 应 的 代码 的 一 分 部 ) 如 下 : 





/* Python wrapper */ 
static PyObject *__pyx_pw_ 1i0arithmetic 7subtract(PyObject *__pyx_self, PyObject 
*__pyx_args, PyObject *__pyx_kwds); /*proto*/ 
static PyMethodDef _ pyx_mdef_ 1i0arithmetic 7subtract = {__ Pyx_NAMESTR("subtract" 
(PyCFunction) pyx_pw_10arithmetic_7subtract, METH_VARARGS|METH_KEYWORDS, _Ppyx_ DOCSTR(0)}; 
static PyObject * pyx_pw_loarithmetic_7subtract(Pyobject *__pyx_self, pyobject 
*__pyx_args, PyObject *_pyx_kwds) { 
PyObject *_ pyx_v x = 0; 
PyObject *_ pyx_vy = 0; 
int __pyx_lineno = 0; 
const char *__pyx_filename = NULL; 
int __pyx_clineno = 0; 
PyObject *_ pyx_r = 0; 
_ Pyx_RefNannyDeclarations 
_ Pyx_RefNannySetupContext("subtract (wrapper)", 0); 


static PyObject **_ pyx_pyargnames[] = {& pyx_n_s x,& pyx_n_s_y,90}; 
PyObject* values[2] = {90,0}; 








看 不 懂 ? 没有 关系 ， 机 器 生成 的 代码 本 来 就 不 是 为 了 给 入 看 的 ， 
征 把 它 交 给 编译 器 吧 。 








$ gcc -shared -pthread -fPIC -fwrapv -02 -Wall -fno-strict-aliasing \ 
-I/usr/include/python2.7 -o arithmetic.so arithmetic.c 





又 是 一 阵 等 待 ， 编 译 、 链 接 工 作 完成 后 ，arithmethic.so 文 件 束 生成 
了 。 这 时 候 可 以 像 import 普 通 的 Python 模 块 一 样 使 用 它 。 





$ python 

>>> import arithmetic 

>>> arithmetic.subtract(2, 1) 
1 








每 一 次 都 需要 编译 、 等 待 未 免 厂 烦 ， 所 以 Cython 很 体贴 地 提供 了 无 
需 显 式 编译 的 方案 : pyximport。 只 要 将 原 有 的 Python 代码 后 缀 名 从 .py 
改 为 .pyx 即 可 。 





$ cp arithmetic.py arithmetic.pyx 
$ cd -~ 
$ python 

>>> import arithmetic 

Traceback (most recent call last) : 


File "<stdin>", line 1, in <module> 
ImportError: No module named arithmetic 
>>> import pyximport; pyximport.install( 
(None, <pyximport. pyximport. PyxImporter object at QOx10fbd05d0>) 
>>> import arithmetic 
>>> arithmetic. file, 
'/Users/apple/. pyxb1ld/1ib. macosx-10.8-x86_64-2.7/arithmetic.so' 





从 _ file_ 属 性 可 以 看 出 ， 这 个 .pyx 文 件 已 经 被 编译 链接 为 共享 库 
J pyximport 的 确 方 便 啊 ! i 就 可 以 
更 进一步 学 习 了 。 接 下 来 要 谈 的 是 如 何 通 过 Cython 把 原 有 代码 的 性 能 所 
升 许多 倍 ， 是 的 ，Cython 就 是 这 么 快 ! 


在 GIS 中 ， 经 党 需要 计算 地 球 表面 上 两 点 之 间 的 距离 。 





import math 
def great_circle(loni1,1at1,1on2,1at2): 
radius = 3956 #miles 
x = math.pi/180.0 
a = (90.0-lat1)*(x) 
b= (90.0-lat2)*(x) 
theta = (lon2-1lon1)*(x) 
c = math.acos((math.cos(a)*math.cos(b)) + (math.sin(a)*math.sin(b)*math.cos(theta))) 
return radius*c 





这 上段 Python 代 码 的 执行 效率 可 以 通过 timeit 来 确定 。 





import timeit 

lon4, lat1i, lon2, lat2 = -72.345, 34.323, -61.823, 54.826 

num = 500000 

t = timeit.Timer(" pi great_ circle(%f, %f,%f,%f)" % (loni,1at1,1on2,1at2), 
"impor 

print "Pure python function", t.timeit(num), "sec" 





执行 50 万 次 大 概 需要 : 2.2 秒 ， 太 慢 了 。 接 下 来 尝试 使 用 Cython 进 行 
改写 ， 为 了 避免 一 下 子 代 码 变 化 太 大 ， 只 使 用 Cython 的 类 型 声明 “ 技 
能 ”， 看 看 能 达到 什么 效果 。 





import math 
def ee circle(float dna toas lat1,float lon2,float lat2): 
ef float radius = 395 
Eef float pi = 3. 3 2 
cdef float x = pi/180.0 
cdef float a,b,theta,c 


theta = (lon2-1lon1)*(x) 
c= math.acos((math.cos(a)*math.cos(b)) + (math.sin(a)*math.sin(b)*math.cos(theta))) 
return radius*c 


4 


通过 给 great_circle 函 数 的 参数 、 中 间 变 量 增加 类 型 声明 ，Cython 代 
人 码 看 起 来 跟 原 有 的 Python 代 码 并 无 很 大 不 同 ， 业 务 逻 辑 代码 一 行 没 改 。 
使 用 timeit 的 测定 结果 是 大 概 1.8 秒 ， 提 速 将 近 二 成 ， 说 明 类 型 声明 对 性 
能 提升 非常 有 帮助 。 这 时 候 ， 还 有 一 个 性 能 瓶颈 需要 解决 ， 那 就 是 : 调 
用 的 math 库 是 一 个 Python 库 ， 人 性 能 较 差 。 解 诀 这 个 问题 ， 需 要 用 到 
Cython 的 另 一 个 技能 : 直接 调用 C 函 数 。 











cdef 和 


) 
def great_circle(float loni1,float lat1,float lon2,float lat2): 
cdef float radius 3956.0 
cdef float pi = 3.14159265 


= -lat x) 
theta = (lon2-1lon1)*(x 
C = acosf((cosf(a)*cosf(b)) + (sinf(a)*sinf(b)*cosf(theta))) 
return radius*c 





Cython 使 用 cdef extern from 语 法 ， 将 math.h 这 个 C 语 言 库 头 文件 里 声 
明 的 cofs、sinf、acosf 等 函数 导入 代码 中 。 因 为 减少 了 Python 函 数 调用 和 
调用 时 产生 的 类 型 转换 开销 ， 使 用 timeit 测 定 这 个 版 本 的 代码 的 效率 仅 
需要 大 概 0.4 秒 的 时 间 ， 人 性 能 提升 了 5 倍 有 余 。 


通过 这 个 例子 ， 可 以 掌握 Cython 的 两 大 技能 ， 类 型 声明 和 直接 调用 
C 函 数 。 只 要 再 进一步 参考 Cython 的 文档 ， 就 可 以 尝试 在 项 目 中 使 用 
人 展 模块 ， 使 用 Cython 的 方法 方便 得 多 ， 
、 区 


除了 使 用 Cython 编 写 扩展 模块 提升 性 能 之 外 ，Cython 也 可 用 来 
把 之 前 编写 的 C/C++ 代码 封 北 成 .so 模块 给 Python 调 用 类似 
boost.python/SWIG 的 功能 ) ，Cython 社 区 已 经 开发 了 许多 自动 化 工 


DO 





Table of Contents 


建议 1: 理解 Pythonic 概 念 
建 议 2: 编写 Pythonic 代 码 
召 认 。 fd 3 





建 议 6: 编 函数 的 4 个 原则 
建议 7 将 常量 | 一 个 人 
第 2 音 组 Et 


建议 8:; 利用 assert 语 句 来 发 现 问 题 
MI MA a 5 -下 二 





建议 11:， 理解 枚 举 蔡 代 实现 的 缺陷 
建议 3 7 » A 





sh 适 
建议 17， 容 性 ， 尽 后 能 Unicode 
建议 18， 核 如 次 来 管理 module 
第 3 章 基础 语法 


建议 19，， 有 节制 地 他 om...import 语 皇 


建议 20; 优 absolute import 来 : 黄 寺 
建议 21: i+=1 不 等 于 ++i 

建议 22: with 自动 关闭 资源 

建议 23; else 子 句 简 化 循环 (异常 处 理 ) 


建议 24: 遵循 异常 处 理 的 几 点 基本 原 见 











